comment travailler sur des données sans y avoir...
TRANSCRIPT
![Page 1: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/1.jpg)
Comment travailler sur des données sans y avoir
accès? ThomasBaudel,IBMFranceLab
SéminaireCERNA‘Anonymisa@ondesdonnéesenrecherche’3/7/19
![Page 2: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/2.jpg)
Sommaire Enjeuxdelaprotec@ondesdonnéesàIBM
• 100ansd’expérience• donnéessensiblesavantd’êtrepersonnelles.• ‘lesdonnéessontauclient’
Soclecommunpourlaprotec@ondesdonnées
• Forma@ongénéraliséeetrépétée(inspirantlecoursEthics&STICs)
• Auditindépendant• Lignesdedéfenses
ConclusionEventaildetechniquespourtravailleréthiquementetlégalementsurdesdonnéessensibles(pasdecasd’usagedel’anonymisa@on)Accepterlescoûtsinduitsparuneges@onresponsabledesdonnées.
7histoiresvécuesd’u@lisa@onouaccèsàdesdonnéessensibles1. Thèseéconomieindustriellesurladétec@onet
préven@ondelafraudeauxmutuelles:donnéesdesanté,résultatsconfiden@els.
2. SmartDeliveries:projetderecherchesurdestournéesdelivraison,avecpublica@ons
3. Testsdeperformancechezunprocesseurdetransac@onsbancairessansaccèsauxdonnées
4. Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles
5. Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfinsmarke@ng
6. Visualisa@ondedossierspa@entspourunservicehospitalier.
7. Requêtedesuppressiondedonnéespersonnellescross-entreprise
![Page 3: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/3.jpg)
Enjeux de la protection des données pour une très grande entreprise de technologie informatique • IBM,300000employésdanspresquetouslespaysdumonde,uneentreprisedeplusde100ans,fondéepourtraiterladonnéepersonnelleenmasse.
• 1890:tabulatricesHollerithpourtraiterlesdonnéesduUScensus.
• ToutlesystèmedetransfertinterbancairereposesurdesmainframesIBMdepuis50ans.
1. Sécuritédesdonnéesetdesprocess:uneprioritégénérale,non-spécifiquesauxdonnéespersonnelles.NoscadrescontractuelsusuelssontpluscontraignantsqueleRGPD.
2. Pournousdis@nguerdelaconcurrence,leslogan‘vosdonnéessontàvous’estunpointd’accrocheimportantpourl’entreprise.Nouscomptonsdessuspournousdis@nguer.
3. Nombreuxmé@ers:conseil,infogérance,développement,recherche…avecuneexposi@onaurisqueetdesexigencesvariées.
![Page 4: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/4.jpg)
Un socle commun pour la protection des données (et la conformité en général) Forma@on• Forma@onobligatoireannuelle(2heures)pourtoutlepersonnel,sousformedeMOOC.
->inspira*ondirectedelaforma*on‘Ethics&STICs’pourU.Paris-Saclay(aveclesupportdelqCERNA)• +forma@onsorientées‘conformitéetéthique’spécialiséesparmé@er:commercial,consultant,développeur,technicien…aveccer@fica@ons.
• +centre(s)deressources
Audit• Organisa@ond’auditinterne‘Businesscontrols’,rakachéeàladirec@onmondiale
• Responsabilitéau-delàdelaseuleprotec@ondesdonnées:processus,bâ@ments,contenudessystèmes…
• Un‘comitéd’éthique’auxpouvoirsetbudgetconséquents.
• Pra@quecourante(pluri-centenaire)desindustriesfortementréglementées.
hkps://www.ethics.org/
Enpréoccupa@onaddi@onnelle,mesuredel’efficacitéglobaledudisposi@f:Nombreetgravitédesanomaliesconstatéesouprojetées+
Pertesdeproduc@vitéentrainéesparlaforma@onetlesprocéduresdeconformité.
![Page 5: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/5.jpg)
![Page 6: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/6.jpg)
Autour du dispositif TheIns(tuteofInternalAuditors(IIA)ThreeLinesofDefenseModel:• TheIIAissued
"TheThreeLinesofDefenseinEffec@veRiskManagementandControl"Posi@onPaperinJanuary2013.TheThreeLinesofDefensemodelprovidesasimpleandeffec@vewaytoenhancecommunica@onsonriskmanagementandcontrolbyclarifyingessen@alrolesandresponsibili@es.
• ThefirstlineofdefenseistheOpera@onalLineownerwhoownsandmanagesriskonadaytodaybasis.
• ThesecondlineofdefenseincludesRiskManagement,BusinessControlsandCompliancefunc@onsthatprovideframeworksandoversightacrosstheenterprisetomonitorandassistthefirstlineofdefenseineffec@vemanagementofknownandemergingrisks.
• ThethirdlineofdefenseisInternalAuditthatprovidesindependentassurance.
(onleverraenapplica@ondanslesexemples)
Surlesdonnéeselles-mêmesetl’anonymisa(on:
L’accentestmissurlesusagespermisounonetlecontrôled’accèsplutôtquesurl’u@lisa@ondetransforma@onspourrendredesdonnéesouprocesssensiblesaccessiblesàd’autresusages.
Onsupposequ’iln’estpaspossiblededétournerunedonnéeouunprocesspourunusageautrequeceluipourlequelilestconçu:pra@quepourlaconformité,plusennuyeuxpourladécouverte‘parsérendipité’.
LeRGPDestaussiconçudanscetesprit:cen’estpastantl’existencedesdonnéesettraitementsquiestcri@que,maisbienl’usagequienestfait.
![Page 7: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/7.jpg)
7 histoires vécues d’utilisation ou accès à des données sensibles 1. Thèseéconomieindustriellesurladétec@onetpréven@ondelafraude
auxmutuelles:donnéesdesanté,ré[email protected]. SmartDeliveries:projetderecherchesurdestournéesdelivraison,avec
publica@ons3. Correc@fsdeperformancechezunprocesseurdetransac@onsbancaires,
sansaccèsauxdonnées4. Miseàjourdelogicielenproduc@ongérantdesdonnéessensibles5. Prototypaged’unsystèmedeno@fica@ongéolocaliséeàdesfins
marke@ng6. Visualisa@ondedonnéespa@entspourunhôpital.7. Requêtedesuppressiondedonnéespersonnellescross-entreprise
![Page 8: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/8.jpg)
Thèse en économie industrielle: contexte
Contratdeservices+infogérancesurunnouveausystèmededétec@ondefraudeauxremboursementsmutuelles.
Analyselesdemandesderemboursement,établiunprofilage(parrègles)etremontedesdemandessuspectesàremonterpouraudit(ounon).Lecontrôleurdesdonnéesestlamutuelle.
Plus-valueducontrat:unethèsecoencadréeavecunlaboratoired’économieindustriellepouranalyserleretoursurinves@ssementdusystème.
Enlukecontrelafraude,lapréven@[email protected]éven@on,Dé[email protected]?C’estlebutdelathèse.
![Page 9: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/9.jpg)
Nature des travaux • A/Btes@ng:informer(oupas)lesprestatairessurl’emploidenouveauxou@lsdedétec@on,mesurerlechangementdescomportementsetleslevéesd’alertes.
• Installerlenouveaudesystèmededétec@on,etmesurerlesretoursdusystèmeetsonimpactindépendammentdesmesuresprisesprécédemment.
• Modéliserpoures@merlanon-détec@onetlesfauxposi@fs.
⇒ accèscompletoupresqueauxdemandesderemboursement,quisontdesdonnéesmédicalesetfinancières.Lapseudonymisa@onn’estpasréaliste.
![Page 10: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/10.jpg)
Centre d’accès sécurisé aux données
Lathèsedémarréefin2015serasoutenuefin2019.
![Page 11: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/11.jpg)
Novel real time data gathering systems
(traffic and parking)
Mobility portal
Centralized data warehouse
3 axes of development
Develop high-value services, with self-sustaining business models
Optimizing traffic regulation Through 1h prediction
Real-time, multimodal, accessible travel planner
Optimizing freight and professional moves
![Page 12: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/12.jpg)
Optimisation de tournées de livraison
Transporters,Maintenance
crew managers…City regulation
center
Drivers
Smart Deliveries
advance informationon planned mobilitydemand
Planned vehicletours
Known and forecasttrafic conditions
Optimized tour plansand trafic alerts
mission tracking
Web application
Mobile application
City Monitoring center(such as IBM IOC-IIT)
Global demand taken into account to spread trafic optimally
Original demand10:00 -> 120 trucks at Part-Dieu11:00 -> 160 trucks at Presqu’Ile
Optimized plans10:00 -> 60 trucks at Part-Dieu, 80 trucks at Presqu’Ile11:00 -> 80 trucks at Presqu’Ile 60 trucks at Part-Dieu
![Page 13: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/13.jpg)
Optimisation de tournées de livraison
• 2012-2013:lestransporteurscommencentàgénéraliserlagéolocalisa@ondeleurscamions
• 3partenairesgrostransporteursacceptentdefournirdesdonnéesdetournéesréaliséespourop@misa@on,intéressésparlerésultatpoten@el.
• Lesdonnéessontcekefois-cifourniesparlestransporteurs(contrôleurs)avecuncontratspécifique.
• Lesdes@na@onssontdescommerces,lestournéessontnumérotées:àpriori,pasdedonnéespersonnelles,maisdonnéessensibles.
![Page 14: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/14.jpg)
Pour la publication • Lesdonnéesdelavillesontpubliques,avecunelicencespécifique(droitderegardsurlesusages):data.grandlyon.fr
• Agréga(on,floutage,etcommunica(ondecertainescolonnesseulement(tempsdeparcours,sansoriginenides@na@on)àunchercheurdemandantcesdonnées.
Round categories 183
Rounds 1,715Routes ~65,000
Routes after full cleansing
31,444
Routes per round 18
Average round travel time
2h24
Average trip time 10 min
Stddev trip time 15 min
Actual Optimized Savings
distance: 63km 47km 25%time: 12630s 10744s 20%Arrives at 12h19 11h48 30min
![Page 15: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/15.jpg)
Résoudre un bug sans accès aux données ni aux programmes. • Undesplusgrandscentresdetraitementdetransac@onsparcarteaumonde:desmillionsdetransac@onsparjour,SLAmaximal.
• Chaquetransac@onengendreledéclenchementderèglesdeconformité,développéeseninterneetconfiden@elles,pourdétecterdesirrégularitéspoten@elles.
• Leclientseplaintdeproblèmesdeperformance,laR&Destimpliquée.• Aucunaccès,niauxdonnées,niauxprogrammesn’estautorisé.• Seuleunedescrip@ondusystèmeinstalléetdelavolumétriedesbasesderèglessontfournies,ainsiquelapossibilitédedemanderdessta@s@quessurlesprofilsd’éxécu@on.
![Page 16: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/16.jpg)
Solution: • Reproduc@ondelasolu@onmatériellecomplètedansundatacenterdetest
• Créa@ondebasesderèglessynthé@ques• Créa@ond’unsystèmed’alimenta@onendonnéessynthé@ques• Tuningdesdonnéesetrèglessynthé@quesjusqu’àobtenirdesprofilsderéponsesimilaireauxprofilsderéponseconstatéschezleclient
• Résolu@ondesproblèmes.• Beaucoupplusdetravailquesidonnéesetprogrammesétaientaccessibles.
Lasynthèsededonnéesar(ficiellesàpar(rd’indicateursoudemodèles(réelsouimaginés)devraitêtreunchampderechercheplusac(f.Quelquesar(cles,maisbeaucoupdecasd’usage(tests,performance,démos…).
![Page 17: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/17.jpg)
Maintenance logicielle ‘en nuage’ • C.estdeliverymanagerpourunelignedeproduitsd’automa@sa@ondeladécision,fourniedansunserviceennuage.
• Périodiquement,nécessitédemekreàjourlelogiciel(con@nuousdelivery)quiaccèdeàtouteslesdonnéesclientsetfournileservice.
• Danscecas,lesmachinesducentrededonnéessontaccessiblespardoubleauthen@fica@on,avectraçageintégraldetouteslescommandesréaliséesparlemainteneur.
⇒ Pourchaquemachineàmekreàjour,ilfautunedouble-authen@fica@onpourlancerlescriptdemiseàjour:cequipourraitsefaireparunsimplescriptallantsurtouteslesmachinesréclamedesmanipula@onsfas@dieuses.
⇒ accepta@ondescoûtssupplémentairesaunomdelasécurité.
![Page 18: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/18.jpg)
Geofencing pour applications marketing
• Quepeut-onoffrircommenouvellesapplica@onsdel’informa@quemobileavecdesfonc@onsdecaptureducontexte(posi@onetno@fica@onsdiverses)?
• Travailexpérimentalmenéparuneéquipededéveloppeursavecunegrandeenseigne.Lebutdel’expérienceestdepermekredecréerdesno@fica@onsdutype:S’ilpleutetquel’u*lisateurestàproximitédumagasinXX,alorsproposerlemessage‘nousvousoffronsuncaféenaTendantlafindel’averse’
![Page 19: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/19.jpg)
Geofencing II
Etudesdefaisabilitétechniquelocale(lesdéveloppeurscommesujetsdeleurexpérience)Réalisa@ond’uneconsolepermekantlikéralementdesupervisertouteslesno@fica@onsreçuesdetouslessujets.Etudeetdiscussionspourenvisageruneexpérimenta@oninvivo.
“…Justasthewaristooimportanttobele[tothegenerals,humanexperimenta*onistooimportanttobele[totheresearchersandlawyers.Ifanexperimentisgoodenoughforyourbestcustomer,it’sgoodenoughforyourbestfriend.”M.Schrage
![Page 20: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/20.jpg)
Visualisation de dossiers patients Lesmédecinsontbesoind’accéderàdesvisualisa@[email protected]éesmédicales.
Cons@tu@ondedossiersar@ficiels,«àlamain»inspirésdecasréels,parunesecrétairemédicaleetuninterne.Cesonttouteslesdonnéesdetravailquenousavons.
Miseenplacedulogicielettestsdansl’enceintedel’hôpital,dansleserviceconcerné(donnéesnon-anonymes,sinonpasdetestabilitéparlesmédecins).
![Page 21: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/21.jpg)
Conclusion I : et l’anonymisation dans tous cela? Lestechnologiesu@liséespoureffectuerdescalculssurdonnéessensibles:
• Calculsansaccèsauxdonnées(CASD)• Agréga@on/Floutagepourrendupublic• Synthèsededonnéesar@ficielles(deplusieurstypes)• Traçageintégraldesac@onsréalisées• Êtresonproprecobayepourdesapplica@onsàcaractèresensible.• Minimiserl’usaged’iden@fiantsexplicites/traçageintégraldesfluxdedonnéeslorsquedesiden@fiantsexplicitessontu@lisés.
• Travailleràl’aveugleoupresque(avecforteslimites)
+forma@ongénéraliséeavecrappelsrégulierset3lignesdedéfensedeprotec@ondesdonnées.
![Page 22: Comment travailler sur des données sans y avoir accès?cerna-ethics-allistene.org/journee-anonymisation-2019-07... · 2019-08-20 · • Le client se plaint de problèmes de performance,](https://reader033.vdocuments.pub/reader033/viewer/2022050402/5f7ffa89de6743578f4d0669/html5/thumbnails/22.jpg)
Conclusion II • Anonymisa@on–pseudonymisa@on:pasvraimentdecasd’usageflagrantdanslescasprésentés.L’anonymisa@onfaitcraindrelaperted’informa@onu@les,lapseudonymisa@onestunsimplegarde-fou,maistrèsinsuffisante.
• Accepterlessurcoutsliésàlaprotec@ondesdonnées,entoutescirconstances.
• Selonuneenquètedestackoverflow,enanalysededonnées:60%dutempspasséencollec@ondedonnéesetformatage,20%featuresengineeringetanalyse,20%[email protected]éessensibles,cenepeutêtrequeplus,soitdescoûtsde3à5foisletempsd’étudeproprementdit.
• Unepistederecherche:synthèsededonnéesar@ficiellesÀbasedesta@s@quesexternes(modèlegraphiqueconstruitàlamain)Àbasededonnéessensibles(synthèsedemodèlegraphiqueetregénéra@on)Calculhomomorphique‘simplifié’