aplicação de técnicas de mineração de textos para classificação automática de denúncias: um...
Post on 08-Jan-2017
602 Views
Preview:
TRANSCRIPT
Uso de Técnicas de Mineração de Textos
Aplicado à triagem automática de denúncias
TEXT MINING
TRIAGEM DE DENÚNCIAS DA
CGU
Denúncia: comunicação de prática de
ato ilícito cuja solução dependa da
atuação de órgão de controle interno
ou externo.
Habilitadas
Inabilitadas
Denúncias
PROTOCOLO
Ouvidoria (35 mil)
Lixo Eletrônico (17 mil )
Fluxo da Triagem de Denúncias
DSSAU
DSEDU
DRDAG
91
diferentes
áreas da
CGU
. . .
Dados
insuficientes
Não é
competência CGU
Já foi
Ficalizada
Arquivadas . . .
Exemplo de Texto de Denúncia com
Erros de Ortografia
Exemplo de Lixo Eletrônico
Porque a triagem manual é um problema?
O estoque de denúncias aumenta a cada dia
Poucos servidores
Processo de triagem baseado em palavras chaves
Denúncia é feita com campo texto em formato livre
91 áreas da CGU para as quais as denúncias devem
ser encaminhadas
Objetivo
Propor um modelo de triagem
eletrônica baseada em mineração de
textos e aprendizagem de máquina.
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU . . .
Arquivadas
Elimina similares
Dados
insuficientes
Não é competência
CGU
Já foi
Ficalizada
. . .
Denúncias Repetidas – como tratar?
Similaridades de cossenos: encontra semelhanças através dos
cossenos do ângulo formado entre 2 vetores.
Valida antes da triagem.
1 = denúncias idênticas!
Proposta de triagem eletrônica
Denúncias
PROTOCOLOo
Triagem eletrônica
Lixo Eletrônico
DSSAU
DSEDU
DRDAG
91 diferentes
áreas da
CGU . . .
Arquivadas
Elimina similares
Dados
insuficientes
Não é competência
CGU
Já foi
Ficalizada
. . .
Matriz termo documento
Remoção de StopWords
Remoção de Pontuação,
números e espaços
Conversão de letras
Maiúsculas para minúsculas
Uso de stemming
Base de dados
Denúncia
denunc escolc fraud ...
1 1 0 0
1 0 1 0
Classificador
Resultados
• POC com 4 categorias
• Precisão de 0.82
• 58 categorias – precisão de 0.554
Classificação multi-label
Resultados
Conclusões
- POC com 58 categorias (unidades da CGU) e cerca
de 40 mil denúncias
- Identificação automática de denúncias similares
- A triagem pode ser feita de forma automática, em
menor tempo e sem perda de qualidade!
- Triagem pode indicar mais de uma unidade da CGU
- O processo é escalável e pode triar maior volume de
denúncias e menor tempo
patricia.maia@cgu.gov.br
Artigo ENIAC 2014: Application of text mining techniques
for classification of documents: a study of automation of
complaints screening in a Brazilian Federal Agency http://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf
Obrigada!
top related