apresentação da qualificação - mestrado ufmg ciência da informação
TRANSCRIPT
![Page 1: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/1.jpg)
Análise Comparativa de Ferramentas de Extração de
Metadados em Artigos Científicos José Alberto Grossi Júnior
Maio/2015
![Page 2: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/2.jpg)
Introdução
![Page 3: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/3.jpg)
Introdução• Necessidade de catalogação automatizada de
artigos científicos.
• Extração automática de informações, como títulos, autores e referências.
• Representação na forma de metadados.
• Ferramentas para extração de metadados.
![Page 4: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/4.jpg)
Problema• Ferramentas focadas em artigos de Ciência da
Computação.
• Layouts pré-definidos, como é o caso do IEEE.
• Poucos estudos do comportamento destas ferramentas em outras áreas do conhecimento.
![Page 5: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/5.jpg)
Layouts padrões dos artigos IEEE.
![Page 6: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/6.jpg)
Objetivos• Identificar as melhores ferramentas de extração de
metadados;
• Utilização de um corpus diversificado, contemplando diversas áreas do conhecimento (variação dos layouts).
• Identificação do comportamento de ferramentas:
• para cada área do conhecimento analisada;
• para cada metadado.
![Page 7: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/7.jpg)
Justificativa• Permitir um conhecimento maior do
comportamento de cada ferramenta; seus pontos fortes e fracos.
• Avaliar a diferenciação dos padrões para cada área do conhecimento e suas características.
![Page 8: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/8.jpg)
Referencial Teórico
![Page 9: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/9.jpg)
Metadados• Definição de Metadado:
• [...] an element of metadata describes an information resource, or helps provide access to an information resource.”
• Padrão Dublin Core
• Definição de 15 elementos padronizados.
![Page 10: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/10.jpg)
Técnicas de Extração de Metadados
![Page 11: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/11.jpg)
Técnicas• Support Vector Machines (SVM)
• Reconhecimento de padrões através de análises matemáticas (análise espacial).
• Hidden Markov Models (HMM)
• Divisão do processamento em estados e símbolos durante um dado período de tempo.
• Observação e aprendizado.
![Page 12: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/12.jpg)
Técnicas de Extração• Word Clustering (Clusters de palavras)
• Identificação de padrões e comparação com dicionários pré-determinados.
• Conditional Random Fields (CRFs)
• Construção de modelos probabilísticos;
• Evolução do HMM (não vicioso).
![Page 13: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/13.jpg)
Ferramentas
![Page 14: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/14.jpg)
Ferramenta Linguagens Técnicas Command Line
Cermine Java SVM, CRF, Word Clustering Sim
TeamBeam Java Maximun Entropy, HMM Não
Mendeley Qt SVM, Word Clustering Não
CiteULike Perl, Python, Ruby, Tcl, Java
Expressões Regulares Não
CiteSeer Python, Perl, Java
SVM, CRF (ParsCit), Word Clustering Sim
ParsCit Perl, Ruby CRF Sim
CrossRef Ruby, PythonExpressões Regulares
+ Posicionamento Visual
Sim
![Page 15: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/15.jpg)
Ferramenta Linguagens Técnicas Command Line
Cermine Java SVM, CRF, Word Clustering Sim
TeamBeam Java Maximun Entropy, HMM Não
Mendeley Qt SVM, Word Clustering Não
CiteULike Perl, Python, Ruby, Tcl, Java
Expressões Regulares Não
CiteSeer Python, Perl, Java
SVM, CRF (ParsCit), Word Clustering Sim
ParsCit Perl, Ruby CRF Sim
CrossRef Ruby, PythonExpressões Regulares
+ Posicionamento Visual
Sim
![Page 16: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/16.jpg)
Metodologia
![Page 17: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/17.jpg)
![Page 18: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/18.jpg)
CorpusÁrea do Conhecimento Total de ArtigosArquitetura e Urbanismo 7
Música 7Ciência da Computação 8Ciência da Informação 9
Ciências Biológicas 7Direito 7
Engenharia Civil 8Letras 7
Matemática Computacional 7Medicina 9
Odontologia 8Psicologia 9Sociologia 7
Total 100
![Page 19: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/19.jpg)
Realização do Experimento
![Page 20: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/20.jpg)
Extração dos Metadados• Extração individual de cada artigo, coletando
resultados para cada uma das ferramentas;
• Análise dos resultados de cada ferramenta para cada área do conhecimento analisada, com base em médias aritméticas dos resultados individuais;
• Análise dos resultados de cada ferramenta para cada metadado, tomando um resultado geral para todas as áreas do conhecimento;
• Cálculo do Índice de Confiabilidade.
![Page 21: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/21.jpg)
• Média ponderada com base nos resultados obtidos para cada metadado, juntamente com seu respectivo peso.
• Classificação:
• A partir de 90: Precisa • Entre 80 e 90: Satisfatória • Abaixo de 80: Insatisfatória
Índice de Confiabilidade
Metadado Peso
Título 5
Autores 4
E-mails 1
Resumo 3
Referências 4
![Page 22: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/22.jpg)
Ambiente de TestesMetadata Extraction Tool
Dados aleatórios. Ferramenta em desenvolvimento.
![Page 23: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/23.jpg)
Extrações Realizadas
![Page 24: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/24.jpg)
Resultados de Extração
![Page 25: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/25.jpg)
Resultados Individuais por Ferramenta
![Page 26: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/26.jpg)
![Page 27: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação](https://reader031.vdocuments.pub/reader031/viewer/2022020106/55af57691a28ab5f098b471a/html5/thumbnails/27.jpg)
Obrigado!