extração automática de definições: um estudo de caso em textos legislativos
TRANSCRIPT
![Page 1: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/1.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Extração Automática de DefiniçõesUm Estudo de Caso em Textos Legislativos
Augusto Herrmann Batista
Orientador: Edilson FernedaCo-orientador: Hércules Antonio do Prado
![Page 2: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/2.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Roteiro
Contextualização e Motivação Problema Objetivos Revisão da Literatura (EI e ED) Referencial Teórico Metodologia Resultados e Discussão Conclusões e Trabalhos Futuros
Ref.: pág. 13
![Page 3: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/3.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
Por que se fazer um Glossário? Facilitar o aprendizado Fixar conceitos Externalizar um jargão Evitar ambiguidades Reduzir ruídos de comunicação
Ref.: págs. 10 a 12
![Page 4: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/4.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
Extração Manual Tarefa Dispendiosa Grande Volume de Textos
Obs.: ainda está sujeita a desacordo entre anotadores!
Ref.: págs. 10 a 12, 39 e 40
![Page 5: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/5.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Problema
Problema ”Dado um conjunto de textos em linguagem natural
em língua portuguesa, em meio eletrônico, como extrair automaticamente um conjunto de termos e definições originalmente apresentados de forma não-estruturada visando a construção de um glossário?”
Ref.: pág. 12
![Page 6: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/6.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Objetivos
Objetivo Geral Elaborar um método de extração de definições a
partir de textos em língua portuguesa aplicando técnicas de processamento de linguagem natural
Objetivos Específicos Estudar técnicas existentes em ED Selecionar, adaptar e combinar Efetuar estudo de caso e aplicar a técnica
Ref.: pág. 12
![Page 7: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/7.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Origens na Extração de Informação (EI) Revisões de Muslea (1999) e Sarawagi (2007) Uso de sequências de padrões sintáticos e slots
(e.g. AutoSlog – RILOFF, 1993) Proximidade semântica com uso do Wordnet
(MILLER, 1995) Aprendizagem de máquina estatística
Modelos Markovianos Ocultos (HMM) Entropia Máxima (MEMM) Campos Aleatórios Condicionais (CRF)
Modelos Híbridos (regras + aprendizagem)Ref.: págs. 14 a 23
![Page 8: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/8.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Problemas Relacionados à Extração de Definições (ED) Origem: sistemas de resposta automática a
perguntas (e.g. SAGGION, 2004) ”Quem é … ?” ”O que é um … ?”
Extração de Tesauros (e.g., CURRAN e MOENS, 2002)
Apoio à Construção de Ontologias (e.g., MALAISÉ, 2005, apud ALARCÓN et al, 2007; GANGEMI et al, 2003 apud NAVIGLI e VELARDI, 2010)
Ref.: págs. 24 a 26
![Page 9: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/9.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Abordagens em ED Baseadas em regras / padrões morfossintáticos
(e.g. TANEV et al, 2005) Baseadas em aprendizagem de máquina estatística
(e.g. FAHMI e BOUMA, 2006) Bayesiano Ingênuo Entropia Máxima Máquinas de Vetor de Suporte (MVS) Algortimos Genéticos (BORG et al, 2007)
Ref.: págs. 25, 29, 30 e 35
![Page 10: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/10.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
ED em Língua Portuguesa Pinto e Oliveira (2004)
Corpógrafo – Textos de Medicina Identificação manual de estruturas sintáticas comuns Construção de expressões regulares
Del Gaudio e Branco (2007, 2009) Textos em TI e EAD Gramática baseada em regras
Ref.: págs. 30 a 32
![Page 11: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/11.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Definições Genus et differentia – Aristóteles
definiendum genus differentia
Shaw (1922): por etimologia por análise (ou intensional) por exclusão por exemplo (ou extensional)
Ref.: págs. 47 a 49
![Page 12: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/12.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Etiquetagem Morfossintática presente na cadeia de processamento de PLN atribui etiquetas com o papel desempenhado pelo
segmento na frase Tipos de etiquetadores
Expressões Regulares Estatísticos N-Gramas Aprendizagem baseada em transformações
(BRILL, 1993 apud BIRD et al, 2009)
Ref.: págs. 49 a 54
![Page 13: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/13.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Máquinas de Vetor de Suporte abordagem de aprendizagem de máquina para
problemas de classificação classifica vetores n-dimensionais
cada dimensão representa uma característica separador que maximiza a margem entre as
classes de vetores
Ref.: págs. 54 a 57
![Page 14: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/14.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Ref.: Figura 12, pág. 58
![Page 15: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/15.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Corpus de experimentação – Coleção Brasileira do Direito das Telecomunicações (ARANHA e LIMA, 2009) 1.940 documentos com 6.120.832 tokens
Leis, Decretos, Resoluções, Jurisprudência 1.757 termos no glossário 2.097 definições
Ref.: págs. 59 a 60
![Page 16: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/16.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
”Problemas” no corpus faltam alguns documentos referenciados
Ex.: ”Acessórios”, referencia a Resolução da ANATEL nº 533, de 10/09/2009. O documento não consta no corpus.
correções ortográficas Ex.: no Anexo à Resolução da ANATEL nº 297, de
10/05/2002 está: ”questão específca”. No glossário, ”questão específica”.
definições omitidas Ex.: ”contratante” e ”contratado” na Lei 8.666/1993
Ref.: págs. 60 a 62
![Page 17: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/17.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Pré-processamento conversão de formatos filtragem para sanear os problemas
Segmentação por períodos por palavras
Ref.: págs. 61 a 62
![Page 18: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/18.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Etiquetagem morfossintática treino no corpus MAC-MORPHO (ALUÍSIO et al,
2003) divisão de treino/testes 90%/10% acurácia: 90,44%
Ref.: págs. 62 a 65
![Page 19: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/19.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Funções extratoras de características (FEC) retornam um valor numérico ou binário
normalizado para a faixa [0, 1] exemplos:
o segmento contém o verbo ”ser” seguido de um determinante?
o segmento contém dois pontos (”:”) entre as cinco primeiras posições?
exemplos de características negativas: palavra não seguida por conjugação do verbo ”ser”
Ref.: págs. 65 a 66
![Page 20: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/20.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Treino Coleção Brasileira de Direito das
Telecomunicações (ARANHA e LIMA, 2009) amostragem aleatória de 70% dos períodos
utilizados para treino normalização dos valores das FEC resposta de referência (”gold standard”) balanceamento da quantidade de instâncias
Aplicação 30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
![Page 21: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/21.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
![Page 22: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/22.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Resultados e Discussão
Resultados acurácia: 73,5% precisão: 75,6% Revocação: 69,6%
Matriz de confusão:
PrediçãoCorreção
Negativa Positiva
Negativa 30538,7%
8911,3%
Positiva 12015,2%
27534,9%
Ref.: págs. 70 a 71
![Page 23: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/23.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Conclusões
Atingidos os objetivos geral e específicos estudo das técnicas existentes escolha de uma abordagem p/ construir glossário estudo de caso
Poucos trabalhos em língua portuguesa, nenhum aplicado a textos normativos
Primeiro passo para a construção de glossários (revisão manual)
Ref.: pág. 72
![Page 24: Extração Automática de Definições: um estudo de caso em textos legislativos](https://reader034.vdocuments.pub/reader034/viewer/2022051520/58a72a241a28ab0d0d8b5a89/html5/thumbnails/24.jpg)
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Trabalhos Futuros
Construção de corpus anotado manualmente revisado
Aplicação em outras áreas do conhecimento Uso de programação genética e outras, aplicadas
à língua portuguesa
Ref.: págs. 72 a 75