data day - datos seguros e inmunidad artificial

Post on 23-Jan-2017

163 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

h"p://sg.com.mx/dataday#datadaymx

Datos Seguros e Inmunidad Ar2ficial FernandoEsponda

Historia

• Mineríadedatos•  Beneficiosyriesgos

• Unaideanuevaparami@garlosriegos•  Leccionesdelanaturaleza

Nuevas oportunidades

• Vivimosenunépocamuyespecial•  Grandescan@dadesdatosdisponibles•  Grandiversidaddedatos•  Capacidaddecómputoaccesible•  Recursoshumanosparaexplotarlo

Nuevas responsabilidades

•  Todanuevatecnologíaconllevaanuevasresponsabilidades•  Enpar@cularlosbeneficiosnodebendecegarnosasusposiblesconsecuenciasperjudiciales•  Losriesgosnosoninmediatamenteaparentesynosuficientegentepiensaenesto

Privacidad y seguridad

•  Enpar@cularhayquepensarenelriesgoderivadode:•  Losensibledelosdatosmismos•  Lasinferenciasquepuedenhacerseacercadeindividuos•  Lainformaciónquepuedederivarsealcombinardatosaparentementeinocuos

Ejemplos Beneficios si, pero…

•  Existenbeneficiosdepublicarlainformaciónmédicadelagente•  ¿Puedeaumentarelpreciodemiseguro?

•  Existenbeneficiosdeconocerlosmovimientosdecadapersona•  ¿Cómoafectaestomiseguridad?•  ¿Quieroquesesepapúblicamenteadondevoy?

Beneficios si, pero…

•  Existenbeneficiosdequelosdiferentescomerciosconozcanmiscomprasyhábitos•  ¿Quéinformaciónsensiblerevelaestoaterceros?•  ¿Esporestoquemecobranmásporunboletodeavión?

•  Existenbeneficiosdesaberlastransaccionesdetarjetadelosindividuos•  ¿Quédiceestodemimovilidadyhábitosdecompraquenoesdeseable?

Beneficios si, pero…

•  Existenbeneficiosdequeelcontenidodemiscomunicacionesseamonitoreada•  ¿Quétalquesonmalinterpretadas?

•  Existenbeneficiosdemonitorearelprogresoenelaprendizajedelosniños•  ¿Puedeu@lizarseestoparacuartarlasoportunidadesfuturasdemishijossinolesvabienensecundaria?

Beneficios si, pero…

•  Existegranpotencialentenerdatosdebúsquedasyvisitaseninternet•  ¿Puedeestoafectarnuestraprobabilidaddeempleo?(Ocausarproblemasconmimujer?)

•  Existegranpotencialentenerdatoseconómicosdealtagranularidad•  ¿Puedeusarseelcuantoganodeformadañina?

A tomar en cuenta

•  Elconsen@mientodelosusuariosnoessuficiente•  Lagentenoleelosacuerdosdeprivacidad•  Imposiblesaberelusofuturo•  Muchosdatosserecolectansinnuestroconocimiento•  Laresponsabilidaddeberecaerenparteenelproveedordeservicios,noenelusuario

•  Esimposibledeterminarcuálseráelusofuturodeundato•  Elcruceconotrasfuentesdedatospuedenrevelarinformacióninsospechada• Peronopodemosdetenerelprogreso.Cómopodemosserresponsables?

Algunas soluciones

• Anonimización•  Encripción

•  Lallave• Buscarotrasalterna@vas

•  Voltearalanaturalezaparaobtenerinspiración•  Resguardarinformación•  Minimizarlainformaciónqueserecolecta

IdeaGeneralInformaciónNega@va• DadounconjuntodeelementosS:todosloselementosquenoestánenS

Ejemplos

•  Todoslosdías•  Reportedeac@vidades,discursopolí@co

•  Loqueseomitedelreporte•  Leerentrelíneas

•  Séquénomegusta

•  Filoso_aHindú•  Definequiéneresmediantelaiden@ficaciónsistemá@cadequiénnoeres

•  Todoestosugierequehayinformaciónvaliosaenlaimagennega@vadeunconjunto

ArteRelaciónentreFondoyFigura

Rachel Whiteread y Futurama

h"p://sg.com.mx/dataday#datadaymx

UnEjemplomásdeInformaciónNega@va

ElSistemaInmune

• Unejemplobiológicodeunarepresentaciónnega@vadelainformación• Protegeralorganismodeenfermedades(patógenos)

•  Cómosonlospatógenos?

• DivisiónentrePropioyNo-Propio•  Propio:loscomponentesqueocurrennormalmenteenelorganismo•  No-Propio:todolodemás

SistemaInmune

•  Lascélulasinmunes(e.g.célulasT)aprendenanointeraccionarconloPropio•  ElconjuntodetodaslascélulasinmunesdefinenqueesPropioalindividualmenteespecificarquenoloes

BasesdeDatosNega@vas

• Unabasededatosposi@va,DB,esunconjuntodecadenasdelongitudfija• Unabasededatosnega@va,NDB,representatodaslascadenas(oregistros)quenoestánenDB•  Ejemplo

•  U=Todaslasposiblescadenasdecuatrocaracteres•  DB={juan,eric,dave}•  U-DB={cris,john,horo,luca,ryan,raul,tehj,bosh,bull,tosh,guff,blah,.…}

BasesdeDatosNega@vas

• Dospreguntas:•  Sepuedecreardichabasededatoseficientemente?

•  Apar@rdeestepuntoasumimosquelascadenasdeDBsonbinarias•  ParaunabaseDBdecadenasdelongitudl(bits)hay2l-|DB|cadenasquenoestánenDB

•  Para|DB|=100,l=30.ElnúmeroderegistrosquenoestánenDBes:230-100=1,073,741,724

•  Paraqué?

PuedeCrearseEficientemente?

•  Sí:HayunalgoritmoquecreaunarepresentacióndeU-DB(dadaDB)en@empopolinomial•  DadoqueU-DBestangrande,debehabersubconjuntosconcadenasmuysimilares•  Laestrategiaesencontrarestosconjuntosyrepresentarlassimilitudesobviandolasdiferencias•  Elmétodoesintroducirunnuevosímbolo(comodín)quepermiteestacompresión

•  Lasbasesdedatosnega@vas(NDB)estándefinidassobre{0,1,*}

ElSímboloComodín*

0011100110

0011100110

0011*

00000001001000010100

00000001001000010100

*0*00

CreacióndeunaBaseNega@va

Gzip,etc

AlgoritmoparaNDB

archivo1 archivo1.zip

archivo1 Todo_menos_archivo1.zip

BasesNega@vasDosPreguntas•  Esposiblecrearunabasenega@vaeficientemente• Paraqué?(Propiedad:aplicación)

•  Irreversibilidad:seguridad*•  Representación:mineríadedatos•  Sugerenciasbienvenidas!!*EncolaboraciónconStephanieForrestyPaulHelman

Paraqué?Privacidad/Seguridad• DB=Elnombredelaspersonasenestaplá@ca• NDB=Todaslasposiblescombinacionesde30caracteresexceptosusnombres• Cómoafectalaprivacidad/seguridaddelainformación?•  Irreversibilidad

•  Quétandi_cilesrecuperarDBdadoNDB?•  Qué@podepreguntaspodemoshacer?

Paraqué?Privacidad•  Esdemostrablementedi_cilrecuperarDBdadoNDB

•  ReduccióndeSATaesteproblema

•  ElproblemapertenecealaclasedecomplejidadNP-Completo•  Fácildeverificarunasolución•  Di_cildeobtenerunasolución

• DadaunaNDBquerepresentanega@vamentelosnombresdelosaquípresentes:•  Fácil:AtendióJuanalaplá@ca?• Di_cil:Quiénestuvoenlaplá@ca?

DePreservaraRecolectar

• Vimoscomorepresentarinformaciónnega@vamentesirveparasalvaguardarinformación• Ahoraveremoscomolamismaideapuedeu@lizarsepararecolectarinformacióndeindividuosymantenersuprivacidad•  EstetrabajofueelaboradoenconjuntoconVictorGuerrero,AntonioFragosoyKaelHuerta

EncuestasDirectas

•  Seleccionelaopciónquecon@eneelnúmerodeparejasqueustedhatenido:[]0[]de1a3[]de4a6[]7omás

EncuestasDirectas

•  Lospar@cipantesprobablementesenegaránacontestarocontestaránconmenosquelaverdad• Quizápodemoslograrnuestrosobje@vos(obtenerestadís@caspoblacionales)conmenosinformaciónpersonal

EncuestasNega@vas

•  SeleccioneunaopciónqueNOcontengaelnúmerodeparejasqueustedhatenido:[]0[]de1a3[]de4a6[]7omás

EncuestasNega@vas

• Con@enemenosinformaciónquelaencuestadirecta(conmásdedosopciones)•  Essuficienteparaes@marlasfrecuenciaspoblacionales• Nota:

Lasencuestas(directas)encues@ón@enenunapreguntaynopcionesexhaus@vasymutuamenteexcluyentes•  Ejemplo

EncuestasNega@vas

•  Cómosaberlaprobabilidadconlaqueseescogep(i,j)?•  Usarinformaciónprevia…•  Controlarlomedianteelusodedisposi@vos

•  Ventajas•  Esperamosqueseanmásprecisasquelasencuestasdirectas

•  Requierenrevelarmenosinformación•  Requierendemenosconfianzaenelencuestador

•  Permitenestudioslongitudinales

EncuestasNega@vasGeneralizacionesyUsos• Poderrespondermásdeunaopción

•  Sirveparaqueelmétodoescaleennúmerodeopciones•  Personalizarcriteriodeprivacidad

• U@lizarestatécnicaparadisminuirlacan@daddeinformaciónpersonalenunabasededatosantesdehacerlapública•  TrabajoenprocesoconAbrahamSolís•  Medirlau@lidaddeunabasededatosperturbadaconestatécnica

Conclusión

• Alimaginartodaslascosasmaravillosasquepodemoshacerconlacombinacióndedatosyaprendizajedemáquina,tomemosunmomentoparapensarcomohacerloconelmenordaño• Lanaturaleza@enetodavíamuchasleccionesquedaralaingeniería

h"p://sg.com.mx/dataday#datadaymx

Gracias FernandoEsponda

fernando.esponda@itam.mx

EncuestasNega@vasEjemplo•  Seaplicaelcues@onariocon4opcionesaunamuestrade100personas•  31contestanlaopción1•  23cadaunadelasopciones2,3y4

• Nuestroobje@voeses@marlaproporcióndelapoblaciónquepertenecealacategoríai:Ci=?• Porejemplo,paraes@marC1

•  Apar@rdelosdatosrecopiladoses@mamoslaproporcióndepersonasqueescogenlaopcióni,e.g:E1=31/100

EncuestasNega@vasEjemplo

• Podemosescribirestocomo:•  E1=p(1,2)C2+p(1,3)C3+p(1,4)C4

•  p(i,j)=laprobabilidaddeescogerlaopciónidadoqueelpar@cipanteperteneceaj•  Cj=laproporcióndelapoblaciónqueperteneceaj

•  Suponemosparaesteejemplop(1,2)=p(1,3)=p(1,4)•  E1=1/3(C2+C3+C4)=1/3(1-C1)•  DespejamosC1•  C1=1-3E1=1-(3*31/100)=1-(93/100)=7/100

•  Elrestodelasproporcionessecalculandemanerasimilar•  Regresar

top related