anonimizacija osobnih podataka - lecto player · sveučilište u zagrebu fakultet elektrotehnike i...
TRANSCRIPT
Sveučilište u Zagrebu
Fakultet elektrotehnike i računarstva
Anonimizacija osobnih podataka
Seminarski rad u okviru predmeta „Računalna forenzika“
2016/2017
Zrinka Lekić
siječanj 2017.
Sadržaj
Anonimizacija osobnih podataka ........................................................................ 1
Seminarski rad u okviru predmeta „Računalna forenzika“ 2016/2017 ............ 1
Uvod................................................................................................................... 3
Vrste podataka ................................................................................................... 4
Pseudonimizacija............................................................................................. 4
Anonimizacija podataka ..................................................................................... 5
Tehnike anonimizacije osobnih podataka ....................................................... 6
Randomizacija .............................................................................................. 6
Generalizacija ............................................................................................... 7
Slučajevi deanonimizacije pojedinaca ................................................................ 9
Literatura ......................................................................................................... 12
Uvod
Podaci o ljudima vrlo su interesantni iz više aspekata, te se prikupljaju kako od državnih
institucija, tako i u svrhu znanstvenih istraživanja te u gospodarske svrhe. Državne institucije
prikupljaju podatke kroz popise stanovništva, čuvanjem zapisa iz javnog zdravstva i slično.
Podatke o korisnicima skupljaju i društvene mreže (Facebook, Twitter), agencije koje
provode ankete stanovništva i razne druge organizacije koje spremaju osobne podatke svojih
klijenata.
Prikupljene podatke moguće je obrađivati, analizirati te iz njih izvoditi zaključke za potrebe
istraživanja. Pitanje koje se nameće vezano uz obradu i analizu tih podataka jest očuvanje
privatnosti osoba – kako proslijediti te podatke trećoj strani i kako analizirati te osobne,
osjetljive podatke na način da se ne naruši privatnost i integritet pojedinca?
Privatnost se pojedinca može očuvati kroz razne tehnike anonimizacije podataka.
Anonimizacija podataka jest proces kojim se podaci obrađuju tako da nakon obrade nije
moguće povezati pojedinu osobu s njenim osjetljivim podacima odnosno zapisima iz baze
podataka.
Cilj anonimizacije podataka jest omogućavanje nesmetanog dijeljenja podataka o ljudima
(engl. open data) u svrhu istraživanja bez straha od reidentifikacije (otkrivanja identiteta)
pojedinaca.
Vrste podataka
Za osobne podatke kaže se da su povjerljivi odnosno osjetljivi (engl. sensitive). Osjetljivi
podaci mogu se definirati kao podaci čiji gubitak može dovesti do legalnih posljedica ili štete
za organizaciju ili pojedinca, ili mogu prouzročiti financijske i druge gubitke organizaciji ili
pojedincu. Zbog te prirode osobnih podataka najčešće ih se štiti zakonom na način da zakon
zabranjuje njihovu javnu objavu ili ograničava njihovo dijeljenje.
Razlikujemo tri kategorije podataka:
1. osobni podaci – definirani su kao bilo koja informacija koju se može
poistovjetiti sa stvarnom osobom. Osobu se može identificirati (direktno ili
indirektno) kroz njeno npr. ime, prezime, identifikacijski broj ili kroz jednu ili
više osobina njenog fizičkog, ekonomskog, socijalnog i sl. identiteta. Ovi
podaci se nazivaju i osobno identificirajućim podacima (engl. personally
identifiable information, PII). Danas se ovdje ubrajaju i geolokacijske
informacije s fotografija te komunikacijski metapodaci (s uređaja poput
pametnog telefona).
2. anonimni podaci – anonimni podaci su sve informacije koje se ne mogu
povezati s osobom od koje potječu odnosno reidentifikacija pojedinca iz tih
podataka je nemoguća. Tako anonimizirane podatke europski Zakon o zaštiti
podataka više ne smatra osobnim podacima, te ih niti ne štiti odnosno
dozvoljeno ih je javno objavljivati i dijeliti
3. pseudonimni podaci – pseudonimni podaci mogu otkriti identitet osobe kojoj
pripadaju, nastaju tehnikama pseudonimizacije
Pseudonimizacija
Pseudonimizacija dopušta reidentifikaciju, dok se anonimizirani podaci ne mogu
reidentificirati odnosno povezati s osobom kojoj pripadaju. Pseudonimizacija nije metoda
anonimizacije, jer samo smanjuje mogućnost povezivanja podataka s identitetom osobe.
Pseudonimizacija može se izvršiti primjerice tako da svakoj osobi u bazi ime i prezime
zamijenimo troznamenkastim brojem ili npr. enkripcijom osobno identificirajućih podataka
pomoću hash funkcije. Ovime je integritet podataka očuvan, oni nisu promijenjeni na nikakav
način, ali su obfuscirani odnosno skriveni. Ovo je uobičajena praksa za podatke koji nisu
namijenjeni javnoj objavi ili dijeljenju.
Da pseudonimizacija nije dovoljna zaštita osobnih podataka, poznato je kroz tzv. AOL-ov
incident iz 2006. godine. Američka medijska kuća AOL objavila je tada bazu podataka s 20
milijuna ključnih riječi koje je oko 650 000 korisnika upisalo u tražilicu u tromjesečnom
periodu. U svrhu zaštite privatnosti osobnih podataka korisnika zamijenili su AOL-ov
korisnički ID sa slučajnim brojem, te izbrisali detalje o IP adresama s kojih su upućivani upiti.
Brojni korisnici su bili reidentificirani kroz obrasce upita, te je AOL morao platiti odštete
korisnicima. Ovo je potaknulo i raspravu o tome što su ustvari osobno identificirajući podaci.
Brisanje osobno identificirajućih podataka iz baze prvi je korak pri anonimizaciji podataka, no
njihovo uklanjanje nije dovoljno za očuvanje privatnosti pojedinca te je potrebno koristiti
tehnike anonimizacije podataka.
Anonimizacija podataka
Zbog zaštite privatnosti pojedinca čijim se podacima rukuje, oni moraju biti anonimizirani.
Djelotvorna anonimizacija, prema europskoj radnoj grupi za zaštitu podataka (Data
Protection Working Party), onemogućava izdvajanje pojedinca tj. njegovih zapisa iz skupa
podataka, povezivanja dvaju zapisa unutar skupa podataka (ili između odvojenih skupova
podataka) koji se odnose na pojedinca (ili grupu), te od izvođenja zaključaka o vrijednostima
pojedinih atributa iz skupa podataka. Ako bilo što od ovoga uspije – došlo je do
reidentifikacije. U sljedećem poglavlju opisat ću tehnike anonimizacije podataka.
No, problem je što se anonimizirani skup podataka može iskombinirati sa zapisima iz nekog
drugog skupa podataka, te se na taj način mogu rekonstruirati osobno identificirajući podaci
pojedinca, što također dovodi do reidentifikacije. S obzirom na povećan pristup javnim i
komercijalnim bazama podataka, ovo predstavlja veliku prepreku za očuvanje osobne
privatnosti.
Tehnike anonimizacije osobnih podataka
Glavne anonimizacijske tehnike su randomizacija i generalizacija podataka.
Randomizacija
Randomizacija je anonimizacijska tehnika koja mijenja točnost osobnih podataka kako bi se
uklonila veza između podatka i pojedinca. Ako je podatak dovoljno nesiguran tj. ako nismo
sigurni u njegovu točnost, ne postoji način da ga povežemo sa stvarnom osobom na koju se
odnosi. Randomizacija se koristi paralelno s generalizacijom. U nastavku su pobrojane
tehnike randomizacije osobnih podataka.
zamjena podataka (engl. data swapping) - parovi atributa dvaju zapisa zamijene. Ako treba
ostati jednaka raspodjela vrijednosti atributa i ne postoji logička veza ili statistička korelacija
unutar zapisa, ova je tehnika dobra. Primjer loše izvršene permutacije nalazi se u Tablici 1 s
obzirom na to da se može pretpostaviti da Direktor ima najveću plaću.
perturbacije – promjena vrijednosti atributa u bazi podataka, no podaci se promijene za
statistički beznačajan iznos. Postoji više načina perturbiranja podataka, npr. mikroagregacija
– sortiraju se osobno identificirajući podaci npr. rastućim slijedom, te se slični iznosi
grupiraju i zamijene prosjekom te grupe (Tablica 2 i 3).
Godina Spol Posao Plaća
1966 M Vozač 10k
1966 M Arhitekt 5k
1968 M Knjižničar 40k
1959 M Portir 30k
1959 M Direktor 4k Tablica 1. Primjer nedjelotvorne anonimizacije korištenjem perturbacije atributa
unošenje šuma u podatke
post-randomizacija mijenja podatke slučajno dobivenim vrijednostima
diferencijalna privatnost (engl. differential privacy) – skup podataka se ne preda
nekome na korištenje, već se zainteresiranoj strani da pristup bazi podataka preko
poslužitelja. Poslužitelj ne odgovara na upite s točnim odgovorom već slučajnim
odgovorom koji je izračunat kao funkcija svih vrijednosti tog atributa iz baze i koji je
dovoljno blizak istini da bude koristan. Originalni podaci time ostaju zaštićeni, engl.
„privacy by design“. Diferencijalna privatnost također garantira da postojanje ili
odsutnost bilo koje osobe iz baze podataka neće utjecati na vjerojatnost mogućeg
odgovora na upit na bazu.[3] Riječima C. Dwork „U bazi sam, ali nitko to ne zna“. No
osim mehanizma koji precizno odgovara na upite (s malo šuma), potrebno je i čuvati
svu povijest upita i entitete koji postavljaju upite kako se ne bi posebno
pripremljenim upitima došlo ipak do skrivenih informacija o skupu podataka tj.
pojedincu. Reverznim inženjerstvom se pokazalo u [4] da Facebook koristi
diferencijalnu privatnost za upite nad njihovim sustavom za upravljanje reklamama
(Ad Targeting System) (Slika 1, preuzeto iz [4]).
Godina Spol Plaća
1963 M 59700
1966 M 58139
1968 M 23507
1959 M 27746
1953 M 5313
1967 M 4228 Tablica 2. Neanonimizirani podaci
Godina Spol Plaća
1963 M 58919.5
1966 M 58919.5
1968 M 25626,5
1959 M 25626,5
1953 M 4770.5
1967 M 4770,5 Tablica 3. Podaci anonimizirani prosječnom vrijednošću plaće u kategorijama
Slika 1 Diferencijalna privatnost
Generalizacija
Generalizacija je tehnika anonimizacija koja generalizira odnosno prorjeđuje atribute
utječući na skalu ili veličinu atributa (npr. korištenje mjeseca umjesto tjedna ili pripadnost
županiji rađe nego gradu). Dobra je za sprječavanje izdvajanja pojedinca, ali zahtijeva još
posebne tehnike da spriječi povezivost podataka među bazama ili izvođenje zaključaka o
vrijednostima atributa.
agregacija i k-anonimnost (vrsta agregacije) – postoji li zapis koji sadrži osobno
identificirajući podatak, mora postojati još takvih zapisa koji imaju iste ili vrlo slične
vrijednosti (primjerice poštanski kod ili datum rođenja) jer je tako puno teže povezati
zapis s pojedincem kojem pripada. Prvi koraci u razvitku k-anonimnosti su se odnosili
na problem objavljivanja zdravstvenih kartona i nalaza u istraživanjima u medicini bez
identifikacije pacijenata i tijeka njihovog liječenja, pa su našli rješenje primjenom
matematičkih metoda. Kada postoji 5-anonimnost znači da isti atributi postoje u još
barem četiri redaka u tablici. Ovako se ne može izdvojiti podatke o pojedincu, teže se
povezuje s drugim bazama, no lako se zaključuje o pojedincu – ako je k pojedinaca
unutar iste grupe, i ako znamo kojoj grupi pojedinac pripada, saznat ćemo tj.
zaključiti i vrijednost atributa (Tablica 4). Također, što je veća vrijednost k, to je
snažnija privatnost
Godina Spol Poštanski broj
Dijagnoza
1966 M 1000* Visoki kolesterol
1966 M 1000* Visoki tlak
1968 M 1000* Moždani udar
1959 M 1000* Fraktura palčane kosti
1959 M 1000* Fraktura palčane kosti
Tablica 4. Primjer loše izvedene k-anonimizacije
supstitucija – način za postizanje k-anonimnosti micanjem osobitosti, specifičnosti iz
podataka. Primjerice, umjesto točne dobi, podatak se opiše rasponom – vrijednost 23
godine se zamijeni „20-25“. Ovakvom kategorizacijom podataka pojedinosti se
prikriju te je teže povezati podatak sa stvarnom osobom.
l-raznolikost – l-raznolikost proširuje k-anonimnost i sprječava napade zaključivanjem
tako što svaki atribut unutar iste grupe mora imati barem l različitih vrijednosti, pa
ako napadač i zna nešto o skupu podataka, ne može biti siguran. Dobro štiti kad su
atributi dobro raspodijeljeni. Još uvijek se mogu povezati podaci s drugom bazom, ali
ne može se izvesti zaključak s potpunom sigurnošću
S obzirom na sve spomenute tehnike anonimizacije, u tablici 5 nalaze se svi rizici koje nose
pojedine tehnike – rizik izdvajanja pojedinca, povezivanja s drugim skupom podataka ili
izvođenje zaključaka o pojedincu (preuzeto iz [2]).
Tablica 5 Rizici pojedinih tehnika anonimizacije
Slučajevi deanonimizacije pojedinaca
U nastavku je opisano nekoliko poznatih slučajeva deanonimizacije odnosno reidentifikacije
pojedinaca.
Sredinom 1990.-ih u državi Massachusetts Komisija za zdravstveno osiguranje (Group
Insurance Commission) objavljuje „anonimizirane“ podatke o svim posjetama bolnici
državnih službenika. Podaci su anonimizirani tako što su izbrisani svi jasno osobno
identificirajući podaci poput imena, prezimena, adrese i SSN-a (engl. social security number).
Tadašnji guverner države William Weld uvjerava javnost da su izbrisani svi osobno
identificirajući podaci tako da nema razloga za brigu oko narušavanja privatnosti. Latanya
Sweeney, tada studentica postdiplomskog studija na MIT-u, uzima te „anonimizirane“
podatke i kombinira ih s bazom registriranih glasača koju je kupila za 20 dolara od grada
Cambridga. U bazi podataka glasača nalazili su se ime, prezime, adresa, poštanski broj
prebivališta, datum rođenja te spol svakog glasača. Uspoređujući zapise obiju baza, dolazi do
medicinskog kartona guvernera Welda – samo je šestero ljudi u Cambridgu rođeno na isti
dan kao i on, troje od toga su muškarci, a zapis samo jednog je odgovarao poštanskom broju
prebivališta guvernera.Kasnije publicira čitavo istraživanje – 87% populacije iz američkog
cenzusa 1990 . može biti identificirano koristeći samo spol, poštanski broj, datum rođenja.
[1] Kasnije su to drugi reproducirali za cenzus 2000. sa 63% točnošću identificiranja
pojedinca. [5]
Netflix je 2006. godine odlučio dodijeliti nagradu onome tko će unaprijediti njihov servis
preporuke filmova. Objavili su skup podataka za više od 100 milijuna ocjena na skali 1-5 za
preko 18000 filmova, ocijenjeno od strane skoro pola milijuna korisnika. Iz skupa podataka
maknuli su glavne elemente osobno identificirajućih podataka (osim ocjena i datuma kada su
dodijeljeni), te su dodali šum na ocjene. Vitalij Shmatikov i Arvin Narayanan sa Sveučilišta u
Texasu su uspoređujući datume osvrta na filmove na internetskoj stranici imdb.com koja je
javna, uspjeli su reidentificirati brojne pojedince, njihove profile na stranici imdb.com i
povezati ih s njihovim Netflix računom odnosno zapisima iz objavljenog skupa podataka.
Epilog svega jest bila sudska tužba protiv Netflixa jer je prekršio „Video privacy protection
act“ iz 1988. godine koji predviđa kazne za sve iznajmitelje videokazeta koji trećoj strani daju
na uvid osobne podatke svojih mušterija, te još nekoliko kalifornijskih zakona, te je upućena
žalba na održavanje sljedećeg takvog natjecanja. Netflix se doduše nagodio, platili su kaznu i
neće održati sljedeće natjecanje.[7]
U radu [6] pokazano je kako je dovoljno promotriti korisnika mobitela u samo nekoliko
točaka u prostoru i vremenu, i te točke su dovoljne da ga se jedinstveno identificira i poveže
sa zapisima u anonimiziranom skupu podataka.
Zaključak
S obzirom na podatke koje različite organizacije skupljaju o pojedincu, potrebna je sve bolja
anonimizacija tih podataka u svrhu očuvanja privatnosti osobe i zaštite osobnih podataka. U
okviru tehnika anonimizacije (randomizacija i generalizacija) postoje anonimizacijske metode
koje garantiraju zaštitu osobnih podataka pod određenim uvjetima. Za zaštitu osobnih
podataka potrebno je odabrati one tehnike čija će kombinacija spriječiti rizike
deanonimizacije.
Do deanonimizacije dolazi ako se pojedinca može izdvojiti iz baze podataka upitima, te ako
se mogu izvoditi zaključci o vrijednostima atributa pojedinog zapisa iz baze. Problem je i što
postoje baze podataka koje su javno dostupne s kojima se anonimizirani podaci mogu
uspoređivati, te se i tako mogu izvesti zaključci o osobi kojoj su podaci pripadali.
Literatura
[1] L. Sweeney, „Simple Demographics Often Identify People Uniquely“. Carnegie Mellon University,
Data Privacy Working Paper 3., Pittsburgh, 2000.
[2] Article 29 Working Party, Opinion No. 05/2014 on Anonymization Techniques,
http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-
recommendation/files/2014/wp216_en.pdf pristupljeno 12. siječnja 2017
[3] Cynthia Dwork, „A firm foundation for private data analysis“, Communications association for
computing machinery, siječanj 2011.
[4] Chin, A., Klinefelter A., „Differential privacy as a response to the reidentification threat“, 2012.
https://fpf.org/wp-content/uploads/Differential-Privacy-as-a-Response-to-the-Reidentification-
Threat-Klinefelter-and-Chin.pdf pristupljeno 12. siječnja 2017.
[5] Philippe Golle „Revisiting the uniqueness of simple demographics in the US population“ 2006.,
https://crypto.stanford.edu/~pgolle/papers/census.pdf . pristupljeno 12. siječnja 2017.
[6] Naini et al, „Where You Are Is Who You Are: User Identification by Matching Statistics“, : IEEE
Transactions on Information Forensics and Security Vol. 11, Issue: 2, veljača 2016.
[7] A. Narayanan, V. Shmatikov. Robust De-anonymization of Large Sparse Datasets, or How to Break
Anonymity of the Netflix Prize Dataset. S&P (Oakland) 2008.