aplicações dos modelos de recuperação da informação na extração de conteúdos na web
DESCRIPTION
Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web. Metodologia de Ciência da Computação Professora: Odette Mestrinho Passos Alunos: André Porto Letícia Santos Marcelo Henrique. WEB. Grande quantidade de informação não-estruturada. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/1.jpg)
Aplicações dos Modelos de Aplicações dos Modelos de Recuperação da Informação na Recuperação da Informação na Extração de Conteúdos na WebExtração de Conteúdos na Web
Metodologia de Ciência da ComputaçãoProfessora: Odette Mestrinho Passos
Alunos:André PortoLetícia SantosMarcelo Henrique
![Page 2: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/2.jpg)
WEBWEB
• Grande quantidade de informação não-
estruturada.
• Necessidade do usuário filtrar informações
relevantes.
• Bancos de Dados para várias funções.
![Page 3: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/3.jpg)
• Importância dos sistemas
• IETS
• CRF (estado-da-arte)
WEBWEB
![Page 4: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/4.jpg)
Fundamentação teóricaFundamentação teórica
DefiniçãoSistemas que lidam com representação,
armazenamento,organização e acesso as informações.
ObjetivoEncontrar objetos de diferentes tipos de
estruturas que satisfacam um conjunto de informações dentro de uma grande coleção.
![Page 5: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/5.jpg)
ModelosModelos
VetorialBooleano
Probabilístico
![Page 6: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/6.jpg)
Modelo vetorialModelo vetorial
• Representação como vetores de termos
• A cada termo é possível associar um peso:• TF : caracterisitcas em comum• IDF : distinguir
• O termo cos(q) determina a proximidade da ocorrência.
• Similar: mesma região
![Page 7: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/7.jpg)
Modelo booleanoModelo booleano
• Baseado na teoria dos conjuntos
• Cada documento está associado a um conjunto de palavras-
chave
• Cada consulta é na forma de uma expressão booleana.
• Termos de índice na combinação especificada pela
consulta.
![Page 8: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/8.jpg)
Modelo probabilísticoModelo probabilístico
• Probabilidade de relevância ou incerteza
• Pesar dinamicamente os termos da consulta em relação ao
documento
• Termos relevantes já obtidos recebem peso maior dos que
não apareceram nos documentos relevantes.
![Page 9: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/9.jpg)
AplicaçõesAplicações
Web semântica
![Page 10: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/10.jpg)
AplicaçõesAplicações
ONDUXOn Demand Unsupervised Extraction
![Page 11: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/11.jpg)
• Método baseado em Recuparação de Informação para realizar tarefas de EIST.
• Sem fase de treinamento ajustada por usuários.
• Possibilidade de criação de modelos não específicos.
• Obteve resultados iguais ou melhores.
ONDUX
![Page 12: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/12.jpg)
Três fases principais:
ONDUX
![Page 13: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/13.jpg)
ONDUX
Coroado R$100,900 1010 Novo Lar.;
3 quartos 2 Banheiros 8199-7654
Coroado R$100,000
1010 Rua Novo Lar.; 3 quartos;
2 banheiros.
8199-7654
Blocking
![Page 14: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/14.jpg)
ONDUX
B0
Matching
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Rua Preço No. ??? Rua
Qtos. Banh. Telefone
B1 B2 B3 B4
B5 B6 B7
![Page 15: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/15.jpg)
ONDUX
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Rua Preço No. ???? Rua
Qtos. Banh. Telefone
Reinforcement
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Bairro Preço No Rua
Qtos. Banh. Telefone
![Page 16: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.vdocuments.pub/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/16.jpg)
Dúvidas?Dúvidas?
Obrigado!