dados abertos: dados pessoais e anonimização de bases
TRANSCRIPT
O que significa preservar a privacidade em bases de dados sujeitas à análise?
1
Contexto: Lei de Acesso à Informação
Exemplos de vulnerabilidades
Algumas estratégias para permitir a análise de dados e garantir a privacidade.
2
LEI Nº 12.527, DE 18 DE NOVEMBRO DE 2011.
Garantir o pleno acesso pelo cidadão a informação e documentos públicos
Obrigar o Estado a buscar de forma ativa a transparência das informações
Estabelecer procedimentos administrativos para o acesso e a responsabilidade dos agentes públicos
3
“Agora, o acesso é a regra, e o sigilo, a exceção!”
Aplicável aos Governos Federal, Estaduais e Municipais
informações básicas na Internet criação de um Serviço de Informação ao
Cidadão negativa deve ser fundamentada gratuidade à população de baixa renda São vedadas quaisquer exigências relativas
aos motivos determinantes da solicitação de informações de interesse público.
4
Novas regras sobre sigilo Novos prazos para a
classificação em reservado, secreto e ultra-secreto
5
Por que isto é importante para a computação?
6
Não só para controle. Informação tem valor e a informação produzida,
guardada, organizada e gerenciada pelo Estado em nome da sociedade é um bem público.
7
Ia ser a minha primeira sugestão para vocês, alguém está fazendo, outros podem fazer também:
Neste exemplo, a informação já está disponível online no agente público:
Informação externa (que não está com o governo) pode agregar valor: mapas, etc...
8
Quais serviços tornam-se possíveis com o acesso a dados públicos?
Como você pode melhorar o funcionamento da sua empresa tendo acesso aos dados públicos?
9
Restringe o acesso quando a divulgação de determinada informação de pessoal for ofensiva à sua intimidade, vida privada, honra e imagem
não exclui as demais hipóteses legais de sigilo e de segredo de justiça nem as hipóteses de segredo industrial ...
10
A restrição não será aplicada nos seguintes casos:
Consentimento expresso do titular
Tratamento médico, estatísticas e pesquisa
Interesse público
Ordem judicial
Apuração de irregularidades ou ações voltadas à recuperação de fatos históricos de maior relevância
11
Exceção à proteção das informações pessoais:
II - à realização de estatísticas e pesquisas científicas de evidente interesse público ou geral, previstos em lei, sendo vedada a identificação da pessoa a que as informações se referirem;
12
Caso AOL: Logs de consulta anonimizados vulnéraveis ao cruzamento de consultas distintas e dados externos »
Linkage Attack (ataque por ligação):
13
Registro médico anonimizado
Diagnóstico
Medicação
Custo do tratamento
CEP
Data de Nascimento
Sexo
Caso AOL: Logs de consulta anomizados vulnéraveis ao cruzamento de consultas distintas e dados externos »
Linkage Attack (ataque por ligação):
14
Registro médico anonimizado Registro público
Diagnóstico
Medicação
Custo do tratamento
CEP
Data de Nascimento
Sexo
Nome
Endereço
“Permitir apenas conjuntos de respostas grandes”
15
Sr. Fulano de Tal tem a doença X?
“Permitir apenas conjuntos de respostas grandes”
16
Sr. Fulano de Tal tem a doença X?
Quantas pessoas tem a doença X?
5.423
“Permitir apenas conjuntos de respostas grandes”
17
Sr. Fulano de Tal tem a doença X?
Quantas pessoas tem a doença X?
5.423
Quantas pessoas que não se chamam Fulano de Tal tem a doença X?
5.422
Mesmo a recusa em responder uma pergunta pode revelar informação…
“Qualquer coisa que possa ser aprendida sobre um participante da base deve ser passível de ser aprendida sem acesso à base.” Dalenius, 1977
18
“Qualquer coisa que possa ser aprendida sobre um participante da base deve ser passível de ser aprendida sem acesso à base.” Dalenius, 1977
Problema: obter conhecimento novo é o objetivo da análise de dados.
Ex.: Fulano fuma. Analiso uma base de registros médicos. Descubro que fumar aumenta o risco de câncer (com ou sem Fulano na base).
19
Privacidade diferencial:
“Não incorro em risco adicional ao participar da base de dados”
“A possibilidade de um terceiro tomar uma ação em relação a um indivíduo não é alterada pela presença ou não deste indivíduo na base” ▪ Ex.: Um banco não muda sua avaliação de
empréstimo usando uma base com meus dados ou sem eles. 20
21
Pr[ K (DB - Me) = t]
Pr[ K (DB + Me) = t] ≤ e
≈ 1 ±
Adicionar ruído estatístico:
Qual a idade de Fulano? 77
Adicionar ruído estatístico:
Qual a idade de Fulano? 77
Qual a idade de Fulano? 32
Adicionar ruído estatístico:
Qual a idade de Fulano? 77
Qual a idade de Fulano? 32
Qual a idade de Fulano? 15
25
Quantas pessoas tem a doença X?
5.420
Quantas pessoas que não se chamam Fulano de Tal tem a doença X?
5.422
26
Quantas pessoas tem a doença X?
5.423 ± ruído
Quantas pessoas que não se chamam Fulano de Tal tem a doença X?
5.422 ± ruído
Base sintética: Gerar uma base sintética cuja distribuição percentual dos conjuntos de interesse seja equivalente à base original
Registro zero: Uso de rotinas para tratamento de sequencias (streams) de dados.
Ex. Média:
Médian+1 = (Médian × n + Xn+1)/ (n+1)
27
A firm foundation for private data analysis.
Cynthia Dwork. 2011. Commun. ACM 54, 1 (January 2011), 86-95.
28
O que significa preservar a privacidade em bases de dados sujeitas à análise?
29
Proíbe a restrição de acesso sobre informações que versem sobre condutas de
violação de direitos humanos ou sejam necessárias à defesa dos direitos
fundamentais
Trata o sigilo como exceção, quando a restrição de acesso, justificadamente,
seja imprescindível à segurança da sociedade e do Estado
Obriga a um controle sobre as informações classificadas como sigilosas
(publicação do número de informações classificadas e relatório de informações
secretas e ultra-secretas desclassificadas)
Permite a qualquer pessoa solicitar a revisão da classificação junto ao órgão, e
prevê possibilidade de recursos junto a instância superior
Criação da Comissão de Reavaliação de Informações, com competência para
apreciar pedidos de desclassificação
Obriga a revisão, em 2 anos, das informações classificadas antes da vigência desta
lei, sob pena de desclassificação
1.3. Novas regras sobre sigilo
O sigilo poderá ter como prazo final a ocorrência de um evento
específico
A desclassificação é automática após vencido o prazo de sigilo ou após a ocorrência de evento específico
Toda decisão que classifique informação como ultra-secreta deverá ser comunicada à Comissão de Reavaliação de Informações
Órgãos e entidades terão o prazo de 2 anos para revisar todo o acervo sigiloso
1.3. Novas regras sobre sigilo
1.4. Prazos de sigilo (classificação)
Como é hoje Como passará a ser com a nova Lei
1) Ultra-secreto: máximo de 30 anos
2) Secreto: máximo de 20 anos
3) Confidencial: máximo de 10 anos
4) Reservado: máximo de 5 anos
1) Ultra-secreto: 25 anos
2) Secreto: máximo de 15 anos
3) Reservado: máximo de 5 anos
1.5. Possibilidades de prorrogação do prazo
sigilo Como é hoje Como passará a ser com a nova Lei
1) Reservada: prorrogável uma vez pela
autoridade classificadora
2) Confidencial: uma vez
3) Secreta: uma vez
4) Ultra-secreta:
a) uma vez ou
b) pela Comissão, por prazo indefinido,
somente nos casos de ameaça à:
-soberania
-integridade territorial
-relações internacionais
1) Reservada: não é permitida a
prorrogação
2) Secreta: não é permitida a prorrogação
3) Ultra-secreta: Prorrogável somente uma
vez, pela Comissão de Reavaliação,
somente nos casos de ameaça à:
- Soberania
- integridade territorial
-grave risco às relações internacionais
1.6. Autoridades competentes para a classificação
Como é hoje Como passará a ser com a nova Lei
1) Reservado e Confidencial:
qualquer servidor civil ou militar
2) Secreta:
Direção, comando, chefia ou assessoramento,
sem nível hierárquico mínimo
3) Ultra-secreta:
Presidente e Vice
Ministros e Comandantes
Chefes de Missão Diplomática e Consulares
1) Reservada:
Direção, comando ou chefia, de nível
hierárquico DAS 5 ou superior
2) Secreta:
Dirigentes de autarquias, fundações ou
empresas estatais
3) Ultra-secreta:
Presidente e Vice
Ministros e Comandantes
Chefes de Missão Diplomática e Consulares