프라이버시보존기계학습 · bkav사가3d 프린트 ... 국제게놈분석경진대회...
TRANSCRIPT
프라이버시 보존 기계학습
1
기계 학습(Machine Learning, ML)
2
Learning: the process of acquiring new or modifying exiting, knowledge, behaviors, skills, values, or preferences
-Wikipedia
Machine Learning: an algorithm which automatically learns and improves from experience without being explicitly programmed
-www.expertsystem.com
오늘날 기계학습의 모습:
A Whole New World (of Data)
3
“Without big data, you are blind and deaf in the middle of a free way”
– Geoffrey Moore, management consultant & theorist, 2014
“Data will become a currency” – David Kenny, IBM Watson, 2016
“Data is the new oil” – Clive Humby, Mathematician, 2006
4- https://breachlevelindex.com- Sensitive data breaches
- 2014 : 뉴스피드 조작, 감정실험- 2015 : Cambridge Analytica에 데이터 판매- 2016 : 미국 대선 경선 과정에 개인정보 사용
하지만, 누군가 당신의 정보를 유출하고 있다면?
기계 학습을 신뢰할 수 있는가?
5스카이넷(터미네이터) : 기계에 대한 지나친 믿음이 가져올 미래?
[Su et al, 2017] 딥 러닝을 속이는 1픽셀 공격
Bkav사가 3D 프린트마스크로아이폰 X 얼굴인식 통과(200달러 비용)
Safe Machine Learning (Safe ML)
6
Safe Machine Learning (Safe ML)
Data Privacy Correctness of Computation
Data Breaches Faithless model
Bliss for Crypto = Nightmare for ML?Inspired by Shafi Goldwasser’s distinguished talk in Crypto’18
7
Shafi GoldwasserProfessor of MIT, Berkeley, Weizmann InstituteTuring Award (2013)Gödel prize (1993, 2001)
암호와 기계학습의 발전
8
Theory & Practice of cryptography are coming closer together
Theory of ML alive and well, but the excitement in ML is in practice (DNN) lacking theory
By Shafi Goldwasser
기계학습
9
훈련데이터
𝒙𝟏,𝒚𝟏⁞
(𝒙𝒏,𝒚𝒏)
기계학습
Models.t. 𝑓 𝑥𝑖 ≈ 𝒚𝒊
Prediction
개인데이터 𝒙
𝒇 𝒙
Inference
Learning
𝑓
암호
10
공격자
(𝒄𝟏 = 𝑬𝒏𝒄𝑲 𝒎𝟏 ,𝒎𝟏)⁞
(𝒄𝒏 = 𝑬𝒏𝒄𝑲 𝒎𝒏 ,𝒎𝒏)
Adversary
복호화
암호문 𝑬𝒏𝒄𝑲(𝒎)
𝒎
평문 (메시지)
𝐷𝑒𝑐𝐾 ⋅
Decryption Circuit
Crypto Theory: Existence of a secure 𝐸𝑛𝑐𝐾(⋅) (under 𝑃 ≠ 𝑁𝑃)= Non-existence of a poly-time Adversary for ∀𝑛
기계학습 암호
데이터분석을 통한모델 예측
해독불가능한암호스킴
생성
기계학습과 암호의 지향점 – 반대?
However, ML on Enc data is possible if Enc is “homomorphic”
12
𝑓훈련데이터
𝒙𝟏,𝒚𝟏 , 𝒙𝟐 ,𝒚𝟐 …(𝒙𝒏,𝒚𝒏)
(𝑬𝒏𝒄𝑲 𝒎𝟏 , 𝒎𝟏)⁞
(𝑬𝒏𝒄𝑲 𝒎𝒏 , 𝒎𝒏)
𝐸𝑛𝑐𝐾(⋅) 𝐷𝑒𝑐𝐾(⋅)
Enc is “homomorphic” w. r. t. operators in Alg
ALG
기계학습
ALG
동형기계학습
ҧ𝑓
동형암호(Homomorphic Encryption)
17
암호기술의 분류
15
What is Homomorphic Encryption (HE)?
Homomorphic encryption is a method of performing calculations on
Encrypted data without decryption.
Slide Courtesy of RationalMind
The Future of Encryption by National Science Foundation (https://youtu.be/BylWT5gsgfM)(한글자막: http://www.math.snu.ac.kr/~jhcheon/[HD%20MP4]The%20future%20of%20encryption )
16
동형암호 (HE : Homomorphic Encryption)
장점
❖튜링 완전성: 컴퓨터로 하는 모든 연산 가능
❖통계처리/검색/기계학습
❖해커의 데이터 유출 원천봉쇄
❖암/복호화 속도: 수십 ms
c.f. AES 1us, RSA 1ms
단점
동형암호의 장단점
17
❖ 암호문 확장: 수십 배 (평문 대비)
❖ 암호문 연산: 수백 배 (평문 대비)
❖ 응용에 따른 속도의 차이 ➔
최적 알고리즘과 구현기술 필요
❖ 비다항식 연산이 어려움
2011 2013 2014 2015 2016 2018
1-bit Amortized
1bit, 1800s
1bit, 0.7s1bit, 0.052s
120s, 250K bit
172s, 531bit
320s, 16K bit
18
재부팅 속도로 보는 동형암호의 발전
[GH11] Implementing Gentry’s Fully-Homomorphic Encryption Scheme, Eurocrypt 2011.
[CCK+13] Batch Fully Homomorphic Encryption over the Integers, Eurocrypt 2013.
[CLT14] Scale-Invariant Fully Homomorphic Encryption over the Integers, PKC 2014.
[HS15] Bootstrapping for Helib, Eurocrypt 2015
[DM15] FHEW: Boostrapping Homomorpic Encryption in Less Than a Second, Eurocrypt 2015.
[CGGI16] Faster Fully Homomorphic Encryption: Bootstrapping in less than 0.1 Seconds, Asiacrypt 2016.[CHH18] Faster Homomorphic Discrete Fourier Transforms and Improved FHE Bootstrapping, IEEE ACCESS, 2019
HEAAN
2011 2013 2014 2015 2016 2018
1-bit Amortized
1bit, 1800s
1bit, 0.7s1bit, 0.052s
120s, 250K bit
172s, 531bit
320s, 16K bit
19
재부팅 속도로 보는 동형암호의 발전
[GH11] Implementing Gentry’s Fully-Homomorphic Encryption Scheme, Eurocrypt 2011.
[CCK+13] Batch Fully Homomorphic Encryption over the Integers, Eurocrypt 2013.
[CLT14] Scale-Invariant Fully Homomorphic Encryption over the Integers, PKC 2014.
[HS15] Bootstrapping for Helib, Eurocrypt 2015
[DM15] FHEW: Boostrapping Homomorpic Encryption in Less Than a Second, Eurocrypt 2015.
[CGGI16] Faster Fully Homomorphic Encryption: Bootstrapping in less than 0.1 Seconds, Asiacrypt 2016.[CHH18] Faster Homomorphic Discrete Fourier Transforms and Improved FHE Bootstrapping, IEEE ACCESS, 2019
✓ 1800s → 0.05s (1bit)✓ 1800s → 0.00046s (Amortized)3만 – 300백만배
HEAAN
동형 기계학습(Homomorphic Machine Learning)
20
국제 게놈분석 경진대회 (Genome Analysis Competition)
주최 후원 목표
정보유출 없이클라우드 컴퓨팅으로
유전정보를 분석UCSD Medical School 미국 국립보건원
21
Slide Courtesy of Xiaoqian Jiang (△ = too small iteration → hard to adapt for other data)22
Rank
1
3
△
△
2
X
X
2017 Track 3 - Winner
Team Submission Schemes
End to End Performan
ceEvaluation result ( F1- Score ) at different cutoffs
Running
time
(mins)
Peak
Memory (M
)
0.01 0.001 0.0001 0.00001
Gold Semi Gold Semi Gold Semi Gold Semi
A*FHE
A*FHE -1 +
HEAAN
922.48 3,777 0.977 0.999 0.986 0.999 0.985 0.999 0.966 0.998
A*FHE -2 1,632.97 4,093 0.882 0.905 0.863 0.877 0.827 0.843 0.792 0.826
ChimeraVersion 1 + TFHE & HEAAN
(Chimera)
201.73 10,375 0.979 0.993 0.987 0.991 0.988 0.989 0.982 0.974
Version 2 215.95 15,166 0.339 0.35 0.305 0.309 0.271 0.276 0.239 0.253
Delft Blue Delft Blue HEAAN 1,844.82 10,814 0.965 0.969 0.956 0.944 0.951 0.935 0.884 0.849
UC San
Diego
Logistic Regr + HEAAN 1.66 14,901 0.983 0.993 0.993 0.987 0.991 0.989 0.995 0.967
Linear Regr 0.42 3,387 0.982 0.989 0.980 0.971 0.982 0.968 0.925 0.89
Duality In
c
Logistic Regr + CKKS (Aka HEAAN),
pkg: PALISADE
3.8 10,230 0.982 0.993 0.991 0.993 0.993 0.991 0.990 0.973
Chi2 test 0.09 1,512 0.968 0.983 0.981 0.985 0.980 0.985 0.939 0.962
Seoul
National
University
SNU-1 HEAAN
52.49 15,204 0.975 0.984 0.976 0.973 0.975 0.969 0.932 0.905
SNU-2 52.37 15,177 0.976 0.988 0.979 0.975 0.974 0.969 0.939 0.909
IBMIBM-Complex CKKS (Aka HEAAN),
pkg: HElIb
23.35 8,651 0.913 0.911 0.169 0.188 0.067 0.077 0.053 0.06
IBM- Real 52.65 15,613 0.542 0.526 0.279 0.28 0.241 0.255 0.218 0.229
Slide Courtesy of Xiaoqian Jiang 23
2018 Track 2 : Secure Genome Wide Association Studies based on HE
KeyValue
고객의 데이터는 고객의 손을 떠난 시점부터 분석 결과가 되어
다시 고객 손에 돌아올 때까지 어떤 순간에도 복호화되지 않는다
❖ 고객은 데이터 프라이버시 유출의 어떠한 위협 없이 클라우드 분석서비스 이용 가능
Slide Courtesy of Samsung SDS
삼성SDS 클라우드 기반 데이터 분석
47
MS사 AI 보호를 위해 동형암호 채택(Fortune magazine, May 2018)
Slide Courtesy of Kristin Lauter25
Intel사 AI 보호를 위해 동형암호 채택
26https://github.com/NervanaSystems/he-transformer
동형 기계학습 연구 현황
27
+ DCOSS
ML Type Task Name Publication HE Remarks
Supervised Learning
Neural Network
(Prediction)
CryptoNets ICML’16 SEAL- First Privacy-Preserving ML based on HE
- CNN on MNIST (99.0% accuracy) / 570 sec
Gazelle USENIX’18Additive
HE- Hybrid of Additive HE & MPC
- Fast but Requires Communication
[BMMP18] CRYPTO’18 TFHE- DiNN on MNIST : Deep Discretized Neural Network
- 96.3% accuracy / 1.6 sec
[JKLS18] CCS’18 HEAAN- CNN on MNIST (98.1% accuracy)
- 30 sec (Amortized : 0.45 sec)
Logistic Regression(Training)
[KSK+18]BMC
JournalHEAAN
- iDASH’17 Winner, Genomic data
- 1579 samples / 18 features / 7 min
[HHCP19] IAAI’19 HEAAN- Large-scale Financial data with Bootstrapping
- 422108 samples / 200 features / 18 hours
Unsupervised Learning
Clustering[JA18] SAC’18 TFHE - K-means Algorithm
[CKP19] SAC’19 HEAAN - Mean-Shift Algorithm (400 times faster than the above)
28
다양한 동형암호 응용분야
질병진단 분석(Disease Diagnosis)
헬스 케어(Health Care)
게놈 분석(Genome Analysis)
신용 분석(Credit Score Analysis)
클라우드 서비스(Cloud Service)
More and More!
추천 시스템(Recommendation System)
기계 학습의 신뢰성 확보
29
-(근사) 계산 검증 기술-
Threats on Machine Learning (데이터 / 모델 변조)
출입 통제를 위한 얼굴인식모델
학습 과정
얼굴인식출입 통제
모델 생성
Threats on Machine Learning (데이터 / 모델 변조)
출입 통제를 위한 얼굴인식모델
학습 과정
데이터 추가
얼굴인식출입 통제
모델 생성
Threats on Machine Learning (데이터 / 모델 변조)
32
출입 통제를 위한 얼굴인식모델
학습 과정
데이터 추가
얼굴인식출입 통제
판결문 기반 형량 결정모델
모델 생성
형량 판단 모델
Threats on Machine Learning (데이터 / 모델 변조)
33
출입 통제를 위한 얼굴인식모델
학습 과정
데이터 추가
얼굴인식출입 통제
판결문 기반 형량 결정모델
모델 생성
"인공지능(AI)판사, 실제 재판 판결 80% 예측“ -2016.10http://biz.chosun.com/site/data/html_dir/2016/10/25/2016102501432.html
대법원, 판결문 작성 때 AI 활용방안 검토 착수 -2019.09http://www.segye.com/newsView/20190916508413?OutUrl=naver
형량 판단 모델형량 판단 모델
변형
Verifiable Computing & zk-SNARKs
특정한 계산에 대해 그 결과를 효율적으로 검증할 수 있는가?
• Yes, 검증이 쉬운 암호학 문제들 (이산로그, 소인수분해, 해쉬 충돌쌍 찾기 등)
55
Verifiable Computing & zk-SNARKs
특정한 계산에 대해 그 결과를 효율적으로 검증할 수 있는가?
• Yes, 검증이 쉬운 암호학 문제들 (이산로그, 소인수분해, 해쉬 충돌쌍 찾기 등)
일반적인 계산에 대해 그 결과를 효율적으로 검증할 수 있는가?
• Yes! Probabilistically Checkable Proof (PCP) [Babai et al.’91, Arora & Safra’92]
• How? 계산을 수행한 사람이 증명을 제공 -> 증명을 보고 확률적인 검증!
• Idea: Sampling 검증 -> 대수적, 확률론적 확장
55
Gödel Prize (93)
동형암호 + 계산검증 = 완벽한 하인
36
Thank you!