data day - datos seguros e inmunidad artificial
Post on 23-Jan-2017
163 Views
Preview:
TRANSCRIPT
h"p://sg.com.mx/dataday#datadaymx
Datos Seguros e Inmunidad Ar2ficial FernandoEsponda
Historia
• Mineríadedatos• Beneficiosyriesgos
• Unaideanuevaparami@garlosriegos• Leccionesdelanaturaleza
Nuevas oportunidades
• Vivimosenunépocamuyespecial• Grandescan@dadesdatosdisponibles• Grandiversidaddedatos• Capacidaddecómputoaccesible• Recursoshumanosparaexplotarlo
Nuevas responsabilidades
• Todanuevatecnologíaconllevaanuevasresponsabilidades• Enpar@cularlosbeneficiosnodebendecegarnosasusposiblesconsecuenciasperjudiciales• Losriesgosnosoninmediatamenteaparentesynosuficientegentepiensaenesto
Privacidad y seguridad
• Enpar@cularhayquepensarenelriesgoderivadode:• Losensibledelosdatosmismos• Lasinferenciasquepuedenhacerseacercadeindividuos• Lainformaciónquepuedederivarsealcombinardatosaparentementeinocuos
Ejemplos Beneficios si, pero…
• Existenbeneficiosdepublicarlainformaciónmédicadelagente• ¿Puedeaumentarelpreciodemiseguro?
• Existenbeneficiosdeconocerlosmovimientosdecadapersona• ¿Cómoafectaestomiseguridad?• ¿Quieroquesesepapúblicamenteadondevoy?
Beneficios si, pero…
• Existenbeneficiosdequelosdiferentescomerciosconozcanmiscomprasyhábitos• ¿Quéinformaciónsensiblerevelaestoaterceros?• ¿Esporestoquemecobranmásporunboletodeavión?
• Existenbeneficiosdesaberlastransaccionesdetarjetadelosindividuos• ¿Quédiceestodemimovilidadyhábitosdecompraquenoesdeseable?
Beneficios si, pero…
• Existenbeneficiosdequeelcontenidodemiscomunicacionesseamonitoreada• ¿Quétalquesonmalinterpretadas?
• Existenbeneficiosdemonitorearelprogresoenelaprendizajedelosniños• ¿Puedeu@lizarseestoparacuartarlasoportunidadesfuturasdemishijossinolesvabienensecundaria?
Beneficios si, pero…
• Existegranpotencialentenerdatosdebúsquedasyvisitaseninternet• ¿Puedeestoafectarnuestraprobabilidaddeempleo?(Ocausarproblemasconmimujer?)
• Existegranpotencialentenerdatoseconómicosdealtagranularidad• ¿Puedeusarseelcuantoganodeformadañina?
A tomar en cuenta
• Elconsen@mientodelosusuariosnoessuficiente• Lagentenoleelosacuerdosdeprivacidad• Imposiblesaberelusofuturo• Muchosdatosserecolectansinnuestroconocimiento• Laresponsabilidaddeberecaerenparteenelproveedordeservicios,noenelusuario
• Esimposibledeterminarcuálseráelusofuturodeundato• Elcruceconotrasfuentesdedatospuedenrevelarinformacióninsospechada• Peronopodemosdetenerelprogreso.Cómopodemosserresponsables?
Algunas soluciones
• Anonimización• Encripción
• Lallave• Buscarotrasalterna@vas
• Voltearalanaturalezaparaobtenerinspiración• Resguardarinformación• Minimizarlainformaciónqueserecolecta
IdeaGeneralInformaciónNega@va• DadounconjuntodeelementosS:todosloselementosquenoestánenS
Ejemplos
• Todoslosdías• Reportedeac@vidades,discursopolí@co
• Loqueseomitedelreporte• Leerentrelíneas
• Séquénomegusta
• Filoso_aHindú• Definequiéneresmediantelaiden@ficaciónsistemá@cadequiénnoeres
• Todoestosugierequehayinformaciónvaliosaenlaimagennega@vadeunconjunto
ArteRelaciónentreFondoyFigura
Rachel Whiteread y Futurama
h"p://sg.com.mx/dataday#datadaymx
UnEjemplomásdeInformaciónNega@va
ElSistemaInmune
• Unejemplobiológicodeunarepresentaciónnega@vadelainformación• Protegeralorganismodeenfermedades(patógenos)
• Cómosonlospatógenos?
• DivisiónentrePropioyNo-Propio• Propio:loscomponentesqueocurrennormalmenteenelorganismo• No-Propio:todolodemás
SistemaInmune
• Lascélulasinmunes(e.g.célulasT)aprendenanointeraccionarconloPropio• ElconjuntodetodaslascélulasinmunesdefinenqueesPropioalindividualmenteespecificarquenoloes
BasesdeDatosNega@vas
• Unabasededatosposi@va,DB,esunconjuntodecadenasdelongitudfija• Unabasededatosnega@va,NDB,representatodaslascadenas(oregistros)quenoestánenDB• Ejemplo
• U=Todaslasposiblescadenasdecuatrocaracteres• DB={juan,eric,dave}• U-DB={cris,john,horo,luca,ryan,raul,tehj,bosh,bull,tosh,guff,blah,.…}
BasesdeDatosNega@vas
• Dospreguntas:• Sepuedecreardichabasededatoseficientemente?
• Apar@rdeestepuntoasumimosquelascadenasdeDBsonbinarias• ParaunabaseDBdecadenasdelongitudl(bits)hay2l-|DB|cadenasquenoestánenDB
• Para|DB|=100,l=30.ElnúmeroderegistrosquenoestánenDBes:230-100=1,073,741,724
• Paraqué?
PuedeCrearseEficientemente?
• Sí:HayunalgoritmoquecreaunarepresentacióndeU-DB(dadaDB)en@empopolinomial• DadoqueU-DBestangrande,debehabersubconjuntosconcadenasmuysimilares• Laestrategiaesencontrarestosconjuntosyrepresentarlassimilitudesobviandolasdiferencias• Elmétodoesintroducirunnuevosímbolo(comodín)quepermiteestacompresión
• Lasbasesdedatosnega@vas(NDB)estándefinidassobre{0,1,*}
ElSímboloComodín*
0011100110
0011100110
0011*
00000001001000010100
00000001001000010100
*0*00
CreacióndeunaBaseNega@va
Gzip,etc
AlgoritmoparaNDB
archivo1 archivo1.zip
archivo1 Todo_menos_archivo1.zip
BasesNega@vasDosPreguntas• Esposiblecrearunabasenega@vaeficientemente• Paraqué?(Propiedad:aplicación)
• Irreversibilidad:seguridad*• Representación:mineríadedatos• Sugerenciasbienvenidas!!*EncolaboraciónconStephanieForrestyPaulHelman
Paraqué?Privacidad/Seguridad• DB=Elnombredelaspersonasenestaplá@ca• NDB=Todaslasposiblescombinacionesde30caracteresexceptosusnombres• Cómoafectalaprivacidad/seguridaddelainformación?• Irreversibilidad
• Quétandi_cilesrecuperarDBdadoNDB?• Qué@podepreguntaspodemoshacer?
Paraqué?Privacidad• Esdemostrablementedi_cilrecuperarDBdadoNDB
• ReduccióndeSATaesteproblema
• ElproblemapertenecealaclasedecomplejidadNP-Completo• Fácildeverificarunasolución• Di_cildeobtenerunasolución
• DadaunaNDBquerepresentanega@vamentelosnombresdelosaquípresentes:• Fácil:AtendióJuanalaplá@ca?• Di_cil:Quiénestuvoenlaplá@ca?
DePreservaraRecolectar
• Vimoscomorepresentarinformaciónnega@vamentesirveparasalvaguardarinformación• Ahoraveremoscomolamismaideapuedeu@lizarsepararecolectarinformacióndeindividuosymantenersuprivacidad• EstetrabajofueelaboradoenconjuntoconVictorGuerrero,AntonioFragosoyKaelHuerta
EncuestasDirectas
• Seleccionelaopciónquecon@eneelnúmerodeparejasqueustedhatenido:[]0[]de1a3[]de4a6[]7omás
EncuestasDirectas
• Lospar@cipantesprobablementesenegaránacontestarocontestaránconmenosquelaverdad• Quizápodemoslograrnuestrosobje@vos(obtenerestadís@caspoblacionales)conmenosinformaciónpersonal
EncuestasNega@vas
• SeleccioneunaopciónqueNOcontengaelnúmerodeparejasqueustedhatenido:[]0[]de1a3[]de4a6[]7omás
EncuestasNega@vas
• Con@enemenosinformaciónquelaencuestadirecta(conmásdedosopciones)• Essuficienteparaes@marlasfrecuenciaspoblacionales• Nota:
Lasencuestas(directas)encues@ón@enenunapreguntaynopcionesexhaus@vasymutuamenteexcluyentes• Ejemplo
EncuestasNega@vas
• Cómosaberlaprobabilidadconlaqueseescogep(i,j)?• Usarinformaciónprevia…• Controlarlomedianteelusodedisposi@vos
• Ventajas• Esperamosqueseanmásprecisasquelasencuestasdirectas
• Requierenrevelarmenosinformación• Requierendemenosconfianzaenelencuestador
• Permitenestudioslongitudinales
EncuestasNega@vasGeneralizacionesyUsos• Poderrespondermásdeunaopción
• Sirveparaqueelmétodoescaleennúmerodeopciones• Personalizarcriteriodeprivacidad
• U@lizarestatécnicaparadisminuirlacan@daddeinformaciónpersonalenunabasededatosantesdehacerlapública• TrabajoenprocesoconAbrahamSolís• Medirlau@lidaddeunabasededatosperturbadaconestatécnica
Conclusión
• Alimaginartodaslascosasmaravillosasquepodemoshacerconlacombinacióndedatosyaprendizajedemáquina,tomemosunmomentoparapensarcomohacerloconelmenordaño• Lanaturaleza@enetodavíamuchasleccionesquedaralaingeniería
h"p://sg.com.mx/dataday#datadaymx
Gracias FernandoEsponda
fernando.esponda@itam.mx
EncuestasNega@vasEjemplo• Seaplicaelcues@onariocon4opcionesaunamuestrade100personas• 31contestanlaopción1• 23cadaunadelasopciones2,3y4
• Nuestroobje@voeses@marlaproporcióndelapoblaciónquepertenecealacategoríai:Ci=?• Porejemplo,paraes@marC1
• Apar@rdelosdatosrecopiladoses@mamoslaproporcióndepersonasqueescogenlaopcióni,e.g:E1=31/100
EncuestasNega@vasEjemplo
• Podemosescribirestocomo:• E1=p(1,2)C2+p(1,3)C3+p(1,4)C4
• p(i,j)=laprobabilidaddeescogerlaopciónidadoqueelpar@cipanteperteneceaj• Cj=laproporcióndelapoblaciónqueperteneceaj
• Suponemosparaesteejemplop(1,2)=p(1,3)=p(1,4)• E1=1/3(C2+C3+C4)=1/3(1-C1)• DespejamosC1• C1=1-3E1=1-(3*31/100)=1-(93/100)=7/100
• Elrestodelasproporcionessecalculandemanerasimilar• Regresar
top related