microagragação
DESCRIPTION
Microagragação. Nielsen Castelo Damasceno 2013. Sumário. Introdução SDC Microagregação Medida de perda de informação Algoritmo MDAV Aplicação da microagregação Referências. Introdução. Informações estatística é um bem fundamental nas sociedades modernas. - PowerPoint PPT PresentationTRANSCRIPT
NIELSEN CASTELO DAMASCENO
2013
Microagragação
Sumário
IntroduçãoSDCMicroagregaçãoMedida de perda de informaçãoAlgoritmo MDAVAplicação da microagregaçãoReferências
Introdução
Informações estatística é um bem fundamental nas sociedades modernas.
Serviços de estatísticas divulgam Microdados Dados tabulares Macrodados
Necessidade da clarificação das informações e a confidencialidade dos dados.
SDC
Controle de divulgação estatística (CDE) ou em inglês Statistical Disclosure Control (SDC).
Minimizar os risco de divulgação sem alterar de forma significativa os dados.
Oferecer o máximo de informações possível à sociedade e minimizar o risco da divulgação.
Métodos de mascaramento ou anonimização. Métodos perturbativos Métodos não perturbativos
Perturbativos
Servem para modificar os valores das variáveis de identificação ou confidenciais.
Variáveis confidenciais: salário, religião, filiação política, estado de saúde.
Não Perturbativos
Não alteram os valores da variáveis.Domingo-Ferrer e Torra (2001) proporão uma
redução de detalhe no conjunto de dados originais.
Microdados
Informações individuais associado a uma pessoa, família ou empresa.
As variáveis existentes em um arquivo de microdados individuais são: sexo, idade, ocupação, país de nascimento
No caso de microdados de uma empresa: atividade econômica, número de empregados, etc.
Tipos de arquivos de microdados
FUP• Arquivo de uso público
AI• Arquivo de investigação
Microagregação
Para Domingo-Ferrer e Torra (2001), na microagregação os registros são agrupados em pequenos grupos, de pelo menos k.
Para um dado registro em vez de publicar a variável original , publica-se a média dos valores de do grupo ao qual pertence.
Método: Permitem a divulgação do conjunto de microdados se, nos registros correspondentes ao grupo de k ou mais indivíduos não houver nenhum indivíduo dominante. E se k é o valor limite.
Os grupos devem ser o mas homogéneos possível.
Microagregação
Grupos: Fixo Variável
Mateo-Sanz e Domingo-Ferre (1999) optaram investigar métodos de microagregação de conjunto de dados homogéneos.
Hansen e Mukherjee (2003) optaram por grupos fixo.
Os grupos devem ser o mas homogéneos possível.
Microagregação
Dado um conjunto de microdados com variáveis contínuas e registros (indivíduos), em que um registro particular pode ser visto como, , são variáveis.
São formados grupos com indivíduos no i-ésimo grupo, e
representa o j-ésimo registro do i-ésimo grupo.
média do registro do i-ésimo grupo. média do conjunto de indivíduos.
Medida de perda de Informação
Maior a homogeneidade do grupo, menor a perda da informação.
Maior a homogeneidade do grupo, menor é a soma dos quadrados.
Microagregação
Domingo-Ferrer e Sebé (2006) disseram que microagregação pode ser modelado como um problema de clusters.
Objetivo: agrupar dados em grupo de dimensão igual a k e o mais homogêneo possível.
Dados parâmetros k:1. Particionar os registros X em grupos de
registros de pelo menos n registro cada.2. Substituir cada registro pelo centroide do
grupo para obter um conjunto de dados mascarado X’.
Microagregação
Conjunto de idade de 9 respondentes. Microagregados com .
Microagregação
Medida de perda de Informação
𝐼𝐿=𝑆𝑆 𝐸 /𝑆𝑆𝑇
𝑆𝑆𝑇 =∑𝑖=1
𝑛
(𝑥 𝑖−𝑥 ) ′ (𝑥 𝑖−𝑥 )
𝑥= 1𝑛∑
𝑖=1
𝑛
𝑥 𝑖
Algoritmo MDAV
MDAV (Maximum Distance to Average Vector)
Microagregação
Exemplo proposto por Domingo-Ferrer et al (2006)
Microagregação
Exemplo proposto por Domingo-Ferrer et al (2006)
Microagregação
Exemplo proposto por Domingo-Ferrer et al (2006)
Referências
Domingo-Ferrer, J., Martínez-Ballesté J., Mateo-Sanz, Sebé F. (2006), ‘Efficient multivariate data-oriented microaggregation’, The VLDB Journal, Springer-Verlag.
Aggawal C. C., Yu S. P (2008), ‘Privacy-Preserving Data Mining: Models and Algorithms’, Spring, New York.
M. Solé, V. Muntés-Mulero, J. Nin, (2012), Efficient microaggregation techniques forlarge numerical data volumes, Int. J. Inform. Secur. 11 (4) 253–267.
C. Panagiotakis, G. Tziritas, (2013), Successive group selection for microaggregation,IEEE Trans. Knowl. Data Eng. 25 (5) 1191–1195.