microagragação

20
NIELSEN CASTELO DAMASCENO 2013 Microagragação

Upload: ezhno

Post on 05-Jan-2016

22 views

Category:

Documents


2 download

DESCRIPTION

Microagragação. Nielsen Castelo Damasceno 2013. Sumário. Introdução SDC Microagregação Medida de perda de informação Algoritmo MDAV Aplicação da microagregação Referências. Introdução. Informações estatística é um bem fundamental nas sociedades modernas. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Microagragação

NIELSEN CASTELO DAMASCENO

2013

Microagragação

Page 2: Microagragação

Sumário

IntroduçãoSDCMicroagregaçãoMedida de perda de informaçãoAlgoritmo MDAVAplicação da microagregaçãoReferências

Page 3: Microagragação

Introdução

Informações estatística é um bem fundamental nas sociedades modernas.

Serviços de estatísticas divulgam Microdados Dados tabulares Macrodados

Necessidade da clarificação das informações e a confidencialidade dos dados.

Page 4: Microagragação

SDC

Controle de divulgação estatística (CDE) ou em inglês Statistical Disclosure Control (SDC).

Minimizar os risco de divulgação sem alterar de forma significativa os dados.

Oferecer o máximo de informações possível à sociedade e minimizar o risco da divulgação.

Métodos de mascaramento ou anonimização. Métodos perturbativos Métodos não perturbativos

Page 5: Microagragação

Perturbativos

Servem para modificar os valores das variáveis de identificação ou confidenciais.

Variáveis confidenciais: salário, religião, filiação política, estado de saúde.

Page 6: Microagragação

Não Perturbativos

Não alteram os valores da variáveis.Domingo-Ferrer e Torra (2001) proporão uma

redução de detalhe no conjunto de dados originais.

Page 7: Microagragação

Microdados

Informações individuais associado a uma pessoa, família ou empresa.

As variáveis existentes em um arquivo de microdados individuais são: sexo, idade, ocupação, país de nascimento

No caso de microdados de uma empresa: atividade econômica, número de empregados, etc.

Page 8: Microagragação

Tipos de arquivos de microdados

FUP• Arquivo de uso público

AI• Arquivo de investigação

Page 9: Microagragação

Microagregação

Para Domingo-Ferrer e Torra (2001), na microagregação os registros são agrupados em pequenos grupos, de pelo menos k.

Para um dado registro em vez de publicar a variável original , publica-se a média dos valores de do grupo ao qual pertence.

Método: Permitem a divulgação do conjunto de microdados se, nos registros correspondentes ao grupo de k ou mais indivíduos não houver nenhum indivíduo dominante. E se k é o valor limite.

Os grupos devem ser o mas homogéneos possível.

Page 10: Microagragação

Microagregação

Grupos: Fixo Variável

Mateo-Sanz e Domingo-Ferre (1999) optaram investigar métodos de microagregação de conjunto de dados homogéneos.

Hansen e Mukherjee (2003) optaram por grupos fixo.

Os grupos devem ser o mas homogéneos possível.

Page 11: Microagragação

Microagregação

Dado um conjunto de microdados com variáveis contínuas e registros (indivíduos), em que um registro particular pode ser visto como, , são variáveis.

São formados grupos com indivíduos no i-ésimo grupo, e

representa o j-ésimo registro do i-ésimo grupo.

média do registro do i-ésimo grupo. média do conjunto de indivíduos.

Page 12: Microagragação

Medida de perda de Informação

Maior a homogeneidade do grupo, menor a perda da informação.

Maior a homogeneidade do grupo, menor é a soma dos quadrados.

Page 13: Microagragação

Microagregação

Domingo-Ferrer e Sebé (2006) disseram que microagregação pode ser modelado como um problema de clusters.

Objetivo: agrupar dados em grupo de dimensão igual a k e o mais homogêneo possível.

Dados parâmetros k:1. Particionar os registros X em grupos de

registros de pelo menos n registro cada.2. Substituir cada registro pelo centroide do

grupo para obter um conjunto de dados mascarado X’.

Page 14: Microagragação

Microagregação

Conjunto de idade de 9 respondentes. Microagregados com .

Page 15: Microagragação

Microagregação

Medida de perda de Informação

𝐼𝐿=𝑆𝑆 𝐸 /𝑆𝑆𝑇

𝑆𝑆𝑇 =∑𝑖=1

𝑛

(𝑥 𝑖−𝑥 ) ′ (𝑥 𝑖−𝑥 )

𝑥= 1𝑛∑

𝑖=1

𝑛

𝑥 𝑖

Page 16: Microagragação

Algoritmo MDAV

MDAV (Maximum Distance to Average Vector)

Page 17: Microagragação

Microagregação

Exemplo proposto por Domingo-Ferrer et al (2006)

Page 18: Microagragação

Microagregação

Exemplo proposto por Domingo-Ferrer et al (2006)

Page 19: Microagragação

Microagregação

Exemplo proposto por Domingo-Ferrer et al (2006)

Page 20: Microagragação

Referências

Domingo-Ferrer, J., Martínez-Ballesté J., Mateo-Sanz, Sebé F. (2006), ‘Efficient multivariate data-oriented microaggregation’, The VLDB Journal, Springer-Verlag.

Aggawal C. C., Yu S. P (2008), ‘Privacy-Preserving Data Mining: Models and Algorithms’, Spring, New York.

M. Solé, V. Muntés-Mulero, J. Nin, (2012), Efficient microaggregation techniques forlarge numerical data volumes, Int. J. Inform. Secur. 11 (4) 253–267.

C. Panagiotakis, G. Tziritas, (2013), Successive group selection for microaggregation,IEEE Trans. Knowl. Data Eng. 25 (5) 1191–1195.