anonimizacija osobnih podataka - lecto player · sveučilište u zagrebu fakultet elektrotehnike i...

Sveučilište u Zagrebu

Fakultet elektrotehnike i računarstva

Anonimizacija osobnih podataka

Seminarski rad u okviru predmeta „Računalna forenzika“

2016/2017

Zrinka Lekić

siječanj 2017.

Sadržaj

Anonimizacija osobnih podataka ........................................................................ 1

Seminarski rad u okviru predmeta „Računalna forenzika“ 2016/2017 ............ 1

Uvod................................................................................................................... 3

Vrste podataka ................................................................................................... 4

Pseudonimizacija............................................................................................. 4

Anonimizacija podataka ..................................................................................... 5

Tehnike anonimizacije osobnih podataka ....................................................... 6

Randomizacija .............................................................................................. 6

Generalizacija ............................................................................................... 7

Slučajevi deanonimizacije pojedinaca ................................................................ 9

Literatura ......................................................................................................... 12

Uvod

Podaci o ljudima vrlo su interesantni iz više aspekata, te se prikupljaju kako od državnih

institucija, tako i u svrhu znanstvenih istraživanja te u gospodarske svrhe. Državne institucije

prikupljaju podatke kroz popise stanovništva, čuvanjem zapisa iz javnog zdravstva i slično.

Podatke o korisnicima skupljaju i društvene mreže (Facebook, Twitter), agencije koje

provode ankete stanovništva i razne druge organizacije koje spremaju osobne podatke svojih

klijenata.

Prikupljene podatke moguće je obrađivati, analizirati te iz njih izvoditi zaključke za potrebe

istraživanja. Pitanje koje se nameće vezano uz obradu i analizu tih podataka jest očuvanje

privatnosti osoba – kako proslijediti te podatke trećoj strani i kako analizirati te osobne,

osjetljive podatke na način da se ne naruši privatnost i integritet pojedinca?

Privatnost se pojedinca može očuvati kroz razne tehnike anonimizacije podataka.

Anonimizacija podataka jest proces kojim se podaci obrađuju tako da nakon obrade nije

moguće povezati pojedinu osobu s njenim osjetljivim podacima odnosno zapisima iz baze

podataka.

Cilj anonimizacije podataka jest omogućavanje nesmetanog dijeljenja podataka o ljudima

(engl. open data) u svrhu istraživanja bez straha od reidentifikacije (otkrivanja identiteta)

pojedinaca.

Vrste podataka

Za osobne podatke kaže se da su povjerljivi odnosno osjetljivi (engl. sensitive). Osjetljivi

podaci mogu se definirati kao podaci čiji gubitak može dovesti do legalnih posljedica ili štete

za organizaciju ili pojedinca, ili mogu prouzročiti financijske i druge gubitke organizaciji ili

pojedincu. Zbog te prirode osobnih podataka najčešće ih se štiti zakonom na način da zakon

zabranjuje njihovu javnu objavu ili ograničava njihovo dijeljenje.

Razlikujemo tri kategorije podataka:

1. osobni podaci – definirani su kao bilo koja informacija koju se može

poistovjetiti sa stvarnom osobom. Osobu se može identificirati (direktno ili

indirektno) kroz njeno npr. ime, prezime, identifikacijski broj ili kroz jednu ili

više osobina njenog fizičkog, ekonomskog, socijalnog i sl. identiteta. Ovi

podaci se nazivaju i osobno identificirajućim podacima (engl. personally

identifiable information, PII). Danas se ovdje ubrajaju i geolokacijske

informacije s fotografija te komunikacijski metapodaci (s uređaja poput

pametnog telefona).

2. anonimni podaci – anonimni podaci su sve informacije koje se ne mogu

povezati s osobom od koje potječu odnosno reidentifikacija pojedinca iz tih

podataka je nemoguća. Tako anonimizirane podatke europski Zakon o zaštiti

podataka više ne smatra osobnim podacima, te ih niti ne štiti odnosno

dozvoljeno ih je javno objavljivati i dijeliti

3. pseudonimni podaci – pseudonimni podaci mogu otkriti identitet osobe kojoj

pripadaju, nastaju tehnikama pseudonimizacije

Pseudonimizacija

Pseudonimizacija dopušta reidentifikaciju, dok se anonimizirani podaci ne mogu

reidentificirati odnosno povezati s osobom kojoj pripadaju. Pseudonimizacija nije metoda

anonimizacije, jer samo smanjuje mogućnost povezivanja podataka s identitetom osobe.

Pseudonimizacija može se izvršiti primjerice tako da svakoj osobi u bazi ime i prezime

zamijenimo troznamenkastim brojem ili npr. enkripcijom osobno identificirajućih podataka

pomoću hash funkcije. Ovime je integritet podataka očuvan, oni nisu promijenjeni na nikakav

način, ali su obfuscirani odnosno skriveni. Ovo je uobičajena praksa za podatke koji nisu

namijenjeni javnoj objavi ili dijeljenju.

Da pseudonimizacija nije dovoljna zaštita osobnih podataka, poznato je kroz tzv. AOL-ov

incident iz 2006. godine. Američka medijska kuća AOL objavila je tada bazu podataka s 20

milijuna ključnih riječi koje je oko 650 000 korisnika upisalo u tražilicu u tromjesečnom

periodu. U svrhu zaštite privatnosti osobnih podataka korisnika zamijenili su AOL-ov

korisnički ID sa slučajnim brojem, te izbrisali detalje o IP adresama s kojih su upućivani upiti.

Brojni korisnici su bili reidentificirani kroz obrasce upita, te je AOL morao platiti odštete

korisnicima. Ovo je potaknulo i raspravu o tome što su ustvari osobno identificirajući podaci.

Brisanje osobno identificirajućih podataka iz baze prvi je korak pri anonimizaciji podataka, no

njihovo uklanjanje nije dovoljno za očuvanje privatnosti pojedinca te je potrebno koristiti

tehnike anonimizacije podataka.

Anonimizacija podataka

Zbog zaštite privatnosti pojedinca čijim se podacima rukuje, oni moraju biti anonimizirani.

Djelotvorna anonimizacija, prema europskoj radnoj grupi za zaštitu podataka (Data

Protection Working Party), onemogućava izdvajanje pojedinca tj. njegovih zapisa iz skupa

podataka, povezivanja dvaju zapisa unutar skupa podataka (ili između odvojenih skupova

podataka) koji se odnose na pojedinca (ili grupu), te od izvođenja zaključaka o vrijednostima

pojedinih atributa iz skupa podataka. Ako bilo što od ovoga uspije – došlo je do

reidentifikacije. U sljedećem poglavlju opisat ću tehnike anonimizacije podataka.

No, problem je što se anonimizirani skup podataka može iskombinirati sa zapisima iz nekog

drugog skupa podataka, te se na taj način mogu rekonstruirati osobno identificirajući podaci

pojedinca, što također dovodi do reidentifikacije. S obzirom na povećan pristup javnim i

komercijalnim bazama podataka, ovo predstavlja veliku prepreku za očuvanje osobne

privatnosti.

Tehnike anonimizacije osobnih podataka

Glavne anonimizacijske tehnike su randomizacija i generalizacija podataka.

Randomizacija

Randomizacija je anonimizacijska tehnika koja mijenja točnost osobnih podataka kako bi se

uklonila veza između podatka i pojedinca. Ako je podatak dovoljno nesiguran tj. ako nismo

sigurni u njegovu točnost, ne postoji način da ga povežemo sa stvarnom osobom na koju se

odnosi. Randomizacija se koristi paralelno s generalizacijom. U nastavku su pobrojane

tehnike randomizacije osobnih podataka.

zamjena podataka (engl. data swapping) - parovi atributa dvaju zapisa zamijene. Ako treba

ostati jednaka raspodjela vrijednosti atributa i ne postoji logička veza ili statistička korelacija

unutar zapisa, ova je tehnika dobra. Primjer loše izvršene permutacije nalazi se u Tablici 1 s

obzirom na to da se može pretpostaviti da Direktor ima najveću plaću.

perturbacije – promjena vrijednosti atributa u bazi podataka, no podaci se promijene za

statistički beznačajan iznos. Postoji više načina perturbiranja podataka, npr. mikroagregacija

– sortiraju se osobno identificirajući podaci npr. rastućim slijedom, te se slični iznosi

grupiraju i zamijene prosjekom te grupe (Tablica 2 i 3).

Godina Spol Posao Plaća

1966 M Vozač 10k

1966 M Arhitekt 5k

1968 M Knjižničar 40k

1959 M Portir 30k

1959 M Direktor 4k Tablica 1. Primjer nedjelotvorne anonimizacije korištenjem perturbacije atributa

unošenje šuma u podatke

post-randomizacija mijenja podatke slučajno dobivenim vrijednostima

diferencijalna privatnost (engl. differential privacy) – skup podataka se ne preda

nekome na korištenje, već se zainteresiranoj strani da pristup bazi podataka preko

poslužitelja. Poslužitelj ne odgovara na upite s točnim odgovorom već slučajnim

odgovorom koji je izračunat kao funkcija svih vrijednosti tog atributa iz baze i koji je

dovoljno blizak istini da bude koristan. Originalni podaci time ostaju zaštićeni, engl.

„privacy by design“. Diferencijalna privatnost također garantira da postojanje ili

odsutnost bilo koje osobe iz baze podataka neće utjecati na vjerojatnost mogućeg

odgovora na upit na bazu.[3] Riječima C. Dwork „U bazi sam, ali nitko to ne zna“. No

osim mehanizma koji precizno odgovara na upite (s malo šuma), potrebno je i čuvati

svu povijest upita i entitete koji postavljaju upite kako se ne bi posebno

pripremljenim upitima došlo ipak do skrivenih informacija o skupu podataka tj.

pojedincu. Reverznim inženjerstvom se pokazalo u [4] da Facebook koristi

diferencijalnu privatnost za upite nad njihovim sustavom za upravljanje reklamama

(Ad Targeting System) (Slika 1, preuzeto iz [4]).

Godina Spol Plaća

1963 M 59700

1966 M 58139

1968 M 23507

1959 M 27746

1953 M 5313

1967 M 4228 Tablica 2. Neanonimizirani podaci

Godina Spol Plaća

1963 M 58919.5

1966 M 58919.5

1968 M 25626,5

1959 M 25626,5

1953 M 4770.5

1967 M 4770,5 Tablica 3. Podaci anonimizirani prosječnom vrijednošću plaće u kategorijama

Slika 1 Diferencijalna privatnost

Generalizacija

Generalizacija je tehnika anonimizacija koja generalizira odnosno prorjeđuje atribute

utječući na skalu ili veličinu atributa (npr. korištenje mjeseca umjesto tjedna ili pripadnost

županiji rađe nego gradu). Dobra je za sprječavanje izdvajanja pojedinca, ali zahtijeva još

posebne tehnike da spriječi povezivost podataka među bazama ili izvođenje zaključaka o

vrijednostima atributa.

agregacija i k-anonimnost (vrsta agregacije) – postoji li zapis koji sadrži osobno

identificirajući podatak, mora postojati još takvih zapisa koji imaju iste ili vrlo slične

vrijednosti (primjerice poštanski kod ili datum rođenja) jer je tako puno teže povezati

zapis s pojedincem kojem pripada. Prvi koraci u razvitku k-anonimnosti su se odnosili

na problem objavljivanja zdravstvenih kartona i nalaza u istraživanjima u medicini bez

identifikacije pacijenata i tijeka njihovog liječenja, pa su našli rješenje primjenom

matematičkih metoda. Kada postoji 5-anonimnost znači da isti atributi postoje u još

barem četiri redaka u tablici. Ovako se ne može izdvojiti podatke o pojedincu, teže se

povezuje s drugim bazama, no lako se zaključuje o pojedincu – ako je k pojedinaca

unutar iste grupe, i ako znamo kojoj grupi pojedinac pripada, saznat ćemo tj.

zaključiti i vrijednost atributa (Tablica 4). Također, što je veća vrijednost k, to je

snažnija privatnost

Godina Spol Poštanski broj

Dijagnoza

1966 M 1000* Visoki kolesterol

1966 M 1000* Visoki tlak

1968 M 1000* Moždani udar

1959 M 1000* Fraktura palčane kosti

1959 M 1000* Fraktura palčane kosti

Tablica 4. Primjer loše izvedene k-anonimizacije

supstitucija – način za postizanje k-anonimnosti micanjem osobitosti, specifičnosti iz

podataka. Primjerice, umjesto točne dobi, podatak se opiše rasponom – vrijednost 23

godine se zamijeni „20-25“. Ovakvom kategorizacijom podataka pojedinosti se

prikriju te je teže povezati podatak sa stvarnom osobom.

l-raznolikost – l-raznolikost proširuje k-anonimnost i sprječava napade zaključivanjem

tako što svaki atribut unutar iste grupe mora imati barem l različitih vrijednosti, pa

ako napadač i zna nešto o skupu podataka, ne može biti siguran. Dobro štiti kad su

atributi dobro raspodijeljeni. Još uvijek se mogu povezati podaci s drugom bazom, ali

ne može se izvesti zaključak s potpunom sigurnošću

S obzirom na sve spomenute tehnike anonimizacije, u tablici 5 nalaze se svi rizici koje nose

pojedine tehnike – rizik izdvajanja pojedinca, povezivanja s drugim skupom podataka ili

izvođenje zaključaka o pojedincu (preuzeto iz [2]).

Tablica 5 Rizici pojedinih tehnika anonimizacije

Slučajevi deanonimizacije pojedinaca

U nastavku je opisano nekoliko poznatih slučajeva deanonimizacije odnosno reidentifikacije

pojedinaca.

Sredinom 1990.-ih u državi Massachusetts Komisija za zdravstveno osiguranje (Group

Insurance Commission) objavljuje „anonimizirane“ podatke o svim posjetama bolnici

državnih službenika. Podaci su anonimizirani tako što su izbrisani svi jasno osobno

identificirajući podaci poput imena, prezimena, adrese i SSN-a (engl. social security number).

Tadašnji guverner države William Weld uvjerava javnost da su izbrisani svi osobno

identificirajući podaci tako da nema razloga za brigu oko narušavanja privatnosti. Latanya

Sweeney, tada studentica postdiplomskog studija na MIT-u, uzima te „anonimizirane“

podatke i kombinira ih s bazom registriranih glasača koju je kupila za 20 dolara od grada

Cambridga. U bazi podataka glasača nalazili su se ime, prezime, adresa, poštanski broj

prebivališta, datum rođenja te spol svakog glasača. Uspoređujući zapise obiju baza, dolazi do

medicinskog kartona guvernera Welda – samo je šestero ljudi u Cambridgu rođeno na isti

dan kao i on, troje od toga su muškarci, a zapis samo jednog je odgovarao poštanskom broju

prebivališta guvernera.Kasnije publicira čitavo istraživanje – 87% populacije iz američkog

cenzusa 1990 . može biti identificirano koristeći samo spol, poštanski broj, datum rođenja.

[1] Kasnije su to drugi reproducirali za cenzus 2000. sa 63% točnošću identificiranja

pojedinca. [5]

Netflix je 2006. godine odlučio dodijeliti nagradu onome tko će unaprijediti njihov servis

preporuke filmova. Objavili su skup podataka za više od 100 milijuna ocjena na skali 1-5 za

preko 18000 filmova, ocijenjeno od strane skoro pola milijuna korisnika. Iz skupa podataka

maknuli su glavne elemente osobno identificirajućih podataka (osim ocjena i datuma kada su

dodijeljeni), te su dodali šum na ocjene. Vitalij Shmatikov i Arvin Narayanan sa Sveučilišta u

Texasu su uspoređujući datume osvrta na filmove na internetskoj stranici imdb.com koja je

javna, uspjeli su reidentificirati brojne pojedince, njihove profile na stranici imdb.com i

povezati ih s njihovim Netflix računom odnosno zapisima iz objavljenog skupa podataka.

Epilog svega jest bila sudska tužba protiv Netflixa jer je prekršio „Video privacy protection

act“ iz 1988. godine koji predviđa kazne za sve iznajmitelje videokazeta koji trećoj strani daju

na uvid osobne podatke svojih mušterija, te još nekoliko kalifornijskih zakona, te je upućena

žalba na održavanje sljedećeg takvog natjecanja. Netflix se doduše nagodio, platili su kaznu i

neće održati sljedeće natjecanje.[7]

U radu [6] pokazano je kako je dovoljno promotriti korisnika mobitela u samo nekoliko

točaka u prostoru i vremenu, i te točke su dovoljne da ga se jedinstveno identificira i poveže

sa zapisima u anonimiziranom skupu podataka.

Zaključak

S obzirom na podatke koje različite organizacije skupljaju o pojedincu, potrebna je sve bolja

anonimizacija tih podataka u svrhu očuvanja privatnosti osobe i zaštite osobnih podataka. U

okviru tehnika anonimizacije (randomizacija i generalizacija) postoje anonimizacijske metode

koje garantiraju zaštitu osobnih podataka pod određenim uvjetima. Za zaštitu osobnih

podataka potrebno je odabrati one tehnike čija će kombinacija spriječiti rizike

deanonimizacije.

Do deanonimizacije dolazi ako se pojedinca može izdvojiti iz baze podataka upitima, te ako

se mogu izvoditi zaključci o vrijednostima atributa pojedinog zapisa iz baze. Problem je i što

postoje baze podataka koje su javno dostupne s kojima se anonimizirani podaci mogu

uspoređivati, te se i tako mogu izvesti zaključci o osobi kojoj su podaci pripadali.

Literatura

[1] L. Sweeney, „Simple Demographics Often Identify People Uniquely“. Carnegie Mellon University,

Data Privacy Working Paper 3., Pittsburgh, 2000.

[2] Article 29 Working Party, Opinion No. 05/2014 on Anonymization Techniques,

http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-

recommendation/files/2014/wp216_en.pdf pristupljeno 12. siječnja 2017

[3] Cynthia Dwork, „A firm foundation for private data analysis“, Communications association for

computing machinery, siječanj 2011.

[4] Chin, A., Klinefelter A., „Differential privacy as a response to the reidentification threat“, 2012.

https://fpf.org/wp-content/uploads/Differential-Privacy-as-a-Response-to-the-Reidentification-

Threat-Klinefelter-and-Chin.pdf pristupljeno 12. siječnja 2017.

[5] Philippe Golle „Revisiting the uniqueness of simple demographics in the US population“ 2006.,

https://crypto.stanford.edu/~pgolle/papers/census.pdf . pristupljeno 12. siječnja 2017.

[6] Naini et al, „Where You Are Is Who You Are: User Identification by Matching Statistics“, : IEEE

Transactions on Information Forensics and Security Vol. 11, Issue: 2, veljača 2016.

[7] A. Narayanan, V. Shmatikov. Robust De-anonymization of Large Sparse Datasets, or How to Break

Anonymity of the Netflix Prize Dataset. S&P (Oakland) 2008.

http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf

http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf

https://fpf.org/wp-content/uploads/Differential-Privacy-as-a-Response-to-the-Reidentification-Threat-Klinefelter-and-Chin.pdf

https://fpf.org/wp-content/uploads/Differential-Privacy-as-a-Response-to-the-Reidentification-Threat-Klinefelter-and-Chin.pdf

https://crypto.stanford.edu/~pgolle/papers/census.pdf

http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=10206

http://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=10206

http://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=7349121

http://www.cs.cornell.edu/~shmat/shmat_oak08netflix.pdf

anonimizacija osobnih podataka - lecto player · sveučilište u zagrebu fakultet elektrotehnike i...

Documents