data day - datos seguros e inmunidad artificial

38
h"p://sg.com.mx/dataday #datadaymx Datos Seguros e Inmunidad Ar2ficial Fernando Esponda

Upload: software-guru

Post on 23-Jan-2017

163 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Data Day - Datos seguros e inmunidad artificial

h"p://sg.com.mx/dataday#datadaymx

Datos Seguros e Inmunidad Ar2ficial FernandoEsponda

Page 2: Data Day - Datos seguros e inmunidad artificial

Historia

• Mineríadedatos•  Beneficiosyriesgos

• Unaideanuevaparami@garlosriegos•  Leccionesdelanaturaleza

Page 3: Data Day - Datos seguros e inmunidad artificial

Nuevas oportunidades

• Vivimosenunépocamuyespecial•  Grandescan@dadesdatosdisponibles•  Grandiversidaddedatos•  Capacidaddecómputoaccesible•  Recursoshumanosparaexplotarlo

Page 4: Data Day - Datos seguros e inmunidad artificial

Nuevas responsabilidades

•  Todanuevatecnologíaconllevaanuevasresponsabilidades•  Enpar@cularlosbeneficiosnodebendecegarnosasusposiblesconsecuenciasperjudiciales•  Losriesgosnosoninmediatamenteaparentesynosuficientegentepiensaenesto

Page 5: Data Day - Datos seguros e inmunidad artificial

Privacidad y seguridad

•  Enpar@cularhayquepensarenelriesgoderivadode:•  Losensibledelosdatosmismos•  Lasinferenciasquepuedenhacerseacercadeindividuos•  Lainformaciónquepuedederivarsealcombinardatosaparentementeinocuos

Page 6: Data Day - Datos seguros e inmunidad artificial

Ejemplos Beneficios si, pero…

•  Existenbeneficiosdepublicarlainformaciónmédicadelagente•  ¿Puedeaumentarelpreciodemiseguro?

•  Existenbeneficiosdeconocerlosmovimientosdecadapersona•  ¿Cómoafectaestomiseguridad?•  ¿Quieroquesesepapúblicamenteadondevoy?

Page 7: Data Day - Datos seguros e inmunidad artificial

Beneficios si, pero…

•  Existenbeneficiosdequelosdiferentescomerciosconozcanmiscomprasyhábitos•  ¿Quéinformaciónsensiblerevelaestoaterceros?•  ¿Esporestoquemecobranmásporunboletodeavión?

•  Existenbeneficiosdesaberlastransaccionesdetarjetadelosindividuos•  ¿Quédiceestodemimovilidadyhábitosdecompraquenoesdeseable?

Page 8: Data Day - Datos seguros e inmunidad artificial

Beneficios si, pero…

•  Existenbeneficiosdequeelcontenidodemiscomunicacionesseamonitoreada•  ¿Quétalquesonmalinterpretadas?

•  Existenbeneficiosdemonitorearelprogresoenelaprendizajedelosniños•  ¿Puedeu@lizarseestoparacuartarlasoportunidadesfuturasdemishijossinolesvabienensecundaria?

Page 9: Data Day - Datos seguros e inmunidad artificial

Beneficios si, pero…

•  Existegranpotencialentenerdatosdebúsquedasyvisitaseninternet•  ¿Puedeestoafectarnuestraprobabilidaddeempleo?(Ocausarproblemasconmimujer?)

•  Existegranpotencialentenerdatoseconómicosdealtagranularidad•  ¿Puedeusarseelcuantoganodeformadañina?

Page 10: Data Day - Datos seguros e inmunidad artificial

A tomar en cuenta

•  Elconsen@mientodelosusuariosnoessuficiente•  Lagentenoleelosacuerdosdeprivacidad•  Imposiblesaberelusofuturo•  Muchosdatosserecolectansinnuestroconocimiento•  Laresponsabilidaddeberecaerenparteenelproveedordeservicios,noenelusuario

•  Esimposibledeterminarcuálseráelusofuturodeundato•  Elcruceconotrasfuentesdedatospuedenrevelarinformacióninsospechada• Peronopodemosdetenerelprogreso.Cómopodemosserresponsables?

Page 11: Data Day - Datos seguros e inmunidad artificial

Algunas soluciones

• Anonimización•  Encripción

•  Lallave• Buscarotrasalterna@vas

•  Voltearalanaturalezaparaobtenerinspiración•  Resguardarinformación•  Minimizarlainformaciónqueserecolecta

Page 12: Data Day - Datos seguros e inmunidad artificial

IdeaGeneralInformaciónNega@va• DadounconjuntodeelementosS:todosloselementosquenoestánenS

Page 13: Data Day - Datos seguros e inmunidad artificial

Ejemplos

•  Todoslosdías•  Reportedeac@vidades,discursopolí@co

•  Loqueseomitedelreporte•  Leerentrelíneas

•  Séquénomegusta

•  Filoso_aHindú•  Definequiéneresmediantelaiden@ficaciónsistemá@cadequiénnoeres

•  Todoestosugierequehayinformaciónvaliosaenlaimagennega@vadeunconjunto

Page 14: Data Day - Datos seguros e inmunidad artificial

ArteRelaciónentreFondoyFigura

Page 15: Data Day - Datos seguros e inmunidad artificial

Rachel Whiteread y Futurama

Page 16: Data Day - Datos seguros e inmunidad artificial

h"p://sg.com.mx/dataday#datadaymx

UnEjemplomásdeInformaciónNega@va

Page 17: Data Day - Datos seguros e inmunidad artificial

ElSistemaInmune

• Unejemplobiológicodeunarepresentaciónnega@vadelainformación• Protegeralorganismodeenfermedades(patógenos)

•  Cómosonlospatógenos?

• DivisiónentrePropioyNo-Propio•  Propio:loscomponentesqueocurrennormalmenteenelorganismo•  No-Propio:todolodemás

Page 18: Data Day - Datos seguros e inmunidad artificial

SistemaInmune

•  Lascélulasinmunes(e.g.célulasT)aprendenanointeraccionarconloPropio•  ElconjuntodetodaslascélulasinmunesdefinenqueesPropioalindividualmenteespecificarquenoloes

Page 19: Data Day - Datos seguros e inmunidad artificial
Page 20: Data Day - Datos seguros e inmunidad artificial

BasesdeDatosNega@vas

• Unabasededatosposi@va,DB,esunconjuntodecadenasdelongitudfija• Unabasededatosnega@va,NDB,representatodaslascadenas(oregistros)quenoestánenDB•  Ejemplo

•  U=Todaslasposiblescadenasdecuatrocaracteres•  DB={juan,eric,dave}•  U-DB={cris,john,horo,luca,ryan,raul,tehj,bosh,bull,tosh,guff,blah,.…}

Page 21: Data Day - Datos seguros e inmunidad artificial

BasesdeDatosNega@vas

• Dospreguntas:•  Sepuedecreardichabasededatoseficientemente?

•  Apar@rdeestepuntoasumimosquelascadenasdeDBsonbinarias•  ParaunabaseDBdecadenasdelongitudl(bits)hay2l-|DB|cadenasquenoestánenDB

•  Para|DB|=100,l=30.ElnúmeroderegistrosquenoestánenDBes:230-100=1,073,741,724

•  Paraqué?

Page 22: Data Day - Datos seguros e inmunidad artificial

PuedeCrearseEficientemente?

•  Sí:HayunalgoritmoquecreaunarepresentacióndeU-DB(dadaDB)en@empopolinomial•  DadoqueU-DBestangrande,debehabersubconjuntosconcadenasmuysimilares•  Laestrategiaesencontrarestosconjuntosyrepresentarlassimilitudesobviandolasdiferencias•  Elmétodoesintroducirunnuevosímbolo(comodín)quepermiteestacompresión

•  Lasbasesdedatosnega@vas(NDB)estándefinidassobre{0,1,*}

Page 23: Data Day - Datos seguros e inmunidad artificial

ElSímboloComodín*

0011100110

0011100110

0011*

00000001001000010100

00000001001000010100

*0*00

Page 24: Data Day - Datos seguros e inmunidad artificial

CreacióndeunaBaseNega@va

Gzip,etc

AlgoritmoparaNDB

archivo1 archivo1.zip

archivo1 Todo_menos_archivo1.zip

Page 25: Data Day - Datos seguros e inmunidad artificial

BasesNega@vasDosPreguntas•  Esposiblecrearunabasenega@vaeficientemente• Paraqué?(Propiedad:aplicación)

•  Irreversibilidad:seguridad*•  Representación:mineríadedatos•  Sugerenciasbienvenidas!!*EncolaboraciónconStephanieForrestyPaulHelman

Page 26: Data Day - Datos seguros e inmunidad artificial

Paraqué?Privacidad/Seguridad• DB=Elnombredelaspersonasenestaplá@ca• NDB=Todaslasposiblescombinacionesde30caracteresexceptosusnombres• Cómoafectalaprivacidad/seguridaddelainformación?•  Irreversibilidad

•  Quétandi_cilesrecuperarDBdadoNDB?•  Qué@podepreguntaspodemoshacer?

Page 27: Data Day - Datos seguros e inmunidad artificial

Paraqué?Privacidad•  Esdemostrablementedi_cilrecuperarDBdadoNDB

•  ReduccióndeSATaesteproblema

•  ElproblemapertenecealaclasedecomplejidadNP-Completo•  Fácildeverificarunasolución•  Di_cildeobtenerunasolución

• DadaunaNDBquerepresentanega@vamentelosnombresdelosaquípresentes:•  Fácil:AtendióJuanalaplá@ca?• Di_cil:Quiénestuvoenlaplá@ca?

Page 28: Data Day - Datos seguros e inmunidad artificial

DePreservaraRecolectar

• Vimoscomorepresentarinformaciónnega@vamentesirveparasalvaguardarinformación• Ahoraveremoscomolamismaideapuedeu@lizarsepararecolectarinformacióndeindividuosymantenersuprivacidad•  EstetrabajofueelaboradoenconjuntoconVictorGuerrero,AntonioFragosoyKaelHuerta

Page 29: Data Day - Datos seguros e inmunidad artificial

EncuestasDirectas

•  Seleccionelaopciónquecon@eneelnúmerodeparejasqueustedhatenido:[]0[]de1a3[]de4a6[]7omás

Page 30: Data Day - Datos seguros e inmunidad artificial

EncuestasDirectas

•  Lospar@cipantesprobablementesenegaránacontestarocontestaránconmenosquelaverdad• Quizápodemoslograrnuestrosobje@vos(obtenerestadís@caspoblacionales)conmenosinformaciónpersonal

Page 31: Data Day - Datos seguros e inmunidad artificial

EncuestasNega@vas

•  SeleccioneunaopciónqueNOcontengaelnúmerodeparejasqueustedhatenido:[]0[]de1a3[]de4a6[]7omás

Page 32: Data Day - Datos seguros e inmunidad artificial

EncuestasNega@vas

• Con@enemenosinformaciónquelaencuestadirecta(conmásdedosopciones)•  Essuficienteparaes@marlasfrecuenciaspoblacionales• Nota:

Lasencuestas(directas)encues@ón@enenunapreguntaynopcionesexhaus@vasymutuamenteexcluyentes•  Ejemplo

Page 33: Data Day - Datos seguros e inmunidad artificial

EncuestasNega@vas

•  Cómosaberlaprobabilidadconlaqueseescogep(i,j)?•  Usarinformaciónprevia…•  Controlarlomedianteelusodedisposi@vos

•  Ventajas•  Esperamosqueseanmásprecisasquelasencuestasdirectas

•  Requierenrevelarmenosinformación•  Requierendemenosconfianzaenelencuestador

•  Permitenestudioslongitudinales

Page 34: Data Day - Datos seguros e inmunidad artificial

EncuestasNega@vasGeneralizacionesyUsos• Poderrespondermásdeunaopción

•  Sirveparaqueelmétodoescaleennúmerodeopciones•  Personalizarcriteriodeprivacidad

• U@lizarestatécnicaparadisminuirlacan@daddeinformaciónpersonalenunabasededatosantesdehacerlapública•  TrabajoenprocesoconAbrahamSolís•  Medirlau@lidaddeunabasededatosperturbadaconestatécnica

Page 35: Data Day - Datos seguros e inmunidad artificial

Conclusión

• Alimaginartodaslascosasmaravillosasquepodemoshacerconlacombinacióndedatosyaprendizajedemáquina,tomemosunmomentoparapensarcomohacerloconelmenordaño• Lanaturaleza@enetodavíamuchasleccionesquedaralaingeniería

Page 36: Data Day - Datos seguros e inmunidad artificial

h"p://sg.com.mx/dataday#datadaymx

Gracias FernandoEsponda

[email protected]

Page 37: Data Day - Datos seguros e inmunidad artificial

EncuestasNega@vasEjemplo•  Seaplicaelcues@onariocon4opcionesaunamuestrade100personas•  31contestanlaopción1•  23cadaunadelasopciones2,3y4

• Nuestroobje@voeses@marlaproporcióndelapoblaciónquepertenecealacategoríai:Ci=?• Porejemplo,paraes@marC1

•  Apar@rdelosdatosrecopiladoses@mamoslaproporcióndepersonasqueescogenlaopcióni,e.g:E1=31/100

Page 38: Data Day - Datos seguros e inmunidad artificial

EncuestasNega@vasEjemplo

• Podemosescribirestocomo:•  E1=p(1,2)C2+p(1,3)C3+p(1,4)C4

•  p(i,j)=laprobabilidaddeescogerlaopciónidadoqueelpar@cipanteperteneceaj•  Cj=laproporcióndelapoblaciónqueperteneceaj

•  Suponemosparaesteejemplop(1,2)=p(1,3)=p(1,4)•  E1=1/3(C2+C3+C4)=1/3(1-C1)•  DespejamosC1•  C1=1-3E1=1-(3*31/100)=1-(93/100)=7/100

•  Elrestodelasproporcionessecalculandemanerasimilar•  Regresar