Download - Filtragem e recuperação da informação
Filtragem e recuperação da informação na web
Vanessa Levati Biff
Maio, 2016
UNIVERSIDADE FEDERAL DE SANTA CATARINA
Departamento de Ciência da Informação
Programa de Pós-Graduação em Ciência da Informação
Disciplina: Recuperação Inteligente da Informação
Profº: Dr. Angel Godoy Vieira
Motivações...
a falta de um método para comparar e processar
diferentes tipos de informações disponíveis na web!
ObjetivoAvaliar técnicas de filtragem e recuperação de informação e suas aplicações na otimização da busca de informação na web.
Recuperação da informação na webA recuperação da informação (RI) abrange estudos voltados
aos processos relativos ao acesso à informação, propondo
modelos que solucionem a necessidade da informação de um
usuário em determinado conjunto de dados.
Problemas de RI na web- Quantidade de documentos não relevantes retornados;- Tempo dispendido pelo usuário para verificação das
buscas.
Os problemas estão relacionados ao modelo de recuperação adotado, que muitas vezes desconsideram o contexto da
consulta.
(BAEZA-YATES; RIBEIRO-NETO; 2013)
sISTEMAS DE RECUPERAÇÃO da informaçãoSRI são compostos por três processos básicos: a consulta de informação, a indexação e o cálculo de similaridade que basicamente verifica a ocorrência ou não dos termos da consulta na base de dados.
Atualmente são utilizadas técnicas de mineração de dados como indexação de termos, classificação de documentos mas a maioria dos modelos adotados não levam em consideração aspectos semânticos da consulta ou do perfil do usuário
problemas de sri - Coincidir a representação com as necessidades dos
usuários;
- Os usuários não conseguirem expressar suas necessidades;
- Necessidade de interagir com o sistema.
(XIE; 2008)
técnicas de recuperação da informaçãoEm recuperação da informação, há várias abordagens que tentam melhorar a formulação da consulta inicial afim de melhorar a recuperação de informações úteis. Dentre elas há processo de feedback de relevância e a expansão da consulta.
O primeiro ocorre quando o usuário fornece explicitamente informações sobre os documentos relevantes para uma consulta, e o segundo quando as informações relacionadas à consulta são utilizadas para expandi-la.
(BAEZA-YATES; RIBEIRO-NETO, 2013)
recuperação da informação interativaBelkin et al. (2004) conclui que embora haja uma boa quantidade de pesquisas sobre algorítimos de recuperação da informação que atendam essas características, pouco se tem focado em questões de recuperação interativa. Isso porque seres humanos são mais complexos do que algoritmos correspondentes, suas motivações e comportamentos são mais variados e difíceis de se medir.
Entretanto, sistemas de Informação que filtram informações relevantes para um determinado usuário baseado em seu perfil são conhecidos como Sistemas de Recomendação.
Sistemas de recomendaçãoSistemas de recomendação tem o efeito de orientar os usuários de forma personalizada para objetos interessantes em um grande espaço de opções possíveis.
(LOPS, GEMMIS; SEMERARO, 2004)
Os usuários precisam de um apoio personalizado em peneirar grande quantidades de informação disponíveis, de acordo com os seus interesses e gostos
Filtragem de informaçãoCompreende em um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades.
(HANANI; SHAPIRA; SHOVAL, 2001)
Filtragem de informaçãoCompreende em um método para gerir grandes fluxos de informações, cujo objetivo é expor aos usuários apenas a informação relevante que atenda suas necessidades.
(HANANI; SHAPIRA; SHOVAL, 2001)
exemplo de aplicações- Filtros para resultados de pesquisa na internet;
- Filtros de e-mails personalizados com base em perfis pessoais;
- Filtros para aplicações de e-commerce que tratam de produtos e promoções para apenas clientes potenciais.
(HANANI; SHAPIRA; SHOVAL, 2001)
técnicas de Filtragem de informaçãoCom o objetivo de gerir a sobrecarga de informação, a Filtragem de Informação faz uso dos vários métodos, conceitos e técnicas de diversas áreas de pesquisa, como: Recuperação de Informação, Inteligência Artificial e Ciência Comportamental.
- Filtragem baseada em conteúdo;- Filtragem colaborativa;- Filtragem Híbrida.
(HANANI; SHAPIRA; SHOVAL, 2001)
Filtragem baseada em conteúdoBaseia-se na análise do conteúdo do item e no perfil do usuário.
Técnicas para:
- Representar os itens;- Produzir o perfil de usuário; - Comparar o perfil do usuário com a representação do item.
Utiliza técnica de RI:- Aprendizado de máquina;- Algoritmos e redes neurais;- Feedback de relevância; (explicito e implicito)
Histórico de feedback do
usuário
Itens do sistema
Perfil do usuário
Cálculo de similaridade entre perfil do usuário e itens do
sistema
Lista de recomendações
Usuário interage com o sistema
Desvantagens DA FILTRAGEM BASEADA EM CONTEÚDO
Limite na análise de conteúdo Só é eficaz se os itens tiveram a quantidade considerável de
informação armazenada de forma textual.
Superespecialização O usuário fica limitado a um grau especifico de novidade,
afetando a diversidade.
Novos usuários Pois a avaliação do usuário é necessária para que o sistema
possa compreender e atender suas preferências.
(LOPS; GEMMIS; SEMERARO, 2004)
Filtragem colaborativaTenta prever a utilidade dos itens para um determinado usuário com base nos itens que foram previamente avaliados por outros usuários.
desvantagens da filtragem colaborativa
Novos itens Novo item não será indicado até que tenha sido avaliado por
um número considerável de usuários
Novos usuários O insuficiente conhecimento do novo usuário afeta o
estabelecimento de vizinhança.
Dispersão Se um item for avaliado por poucas pessoas, este item
raramente será recomendado.
Escalabilidade Muitas avaliações pode ocasionar lentidão no calculo de
similaridade..
(ADOMAVICIUS; TUZHILIN, 2005)
Filtragem híbridaCombina os pontos fortes da filtragem baseada em conteúdo e da filtragem colaborativa.
Filtragem baseada em conteúdo
- Independência do usuário
- Indicação de itens ainda não avaliados por
qualquer usuário
- Histórico de consumo
Filtragem colaborativa
- Recomendação de itens diversos e
inesperados
- Descoberta de novos relacionamentos entre
usuários
- Histórico de avaliações em comum
Filtragem híbridaMétodo de hibridização Descrição
Ponderada (Weighted) As pontuações das técnicas de filtragem são combinadas para produzir uma única recomendação.
Comutação (Switching) O sistema alterna entre as técnicas dependendo da situação atual.
Misturada (Mixed) Recomendações de vários técnicas diferentes são apresentado ao mesmo tempo.
Combinação de recurso (Feature combination)
Características de diferentes técnicas são jogadas juntas em um único algoritmo de recomendação.
Cascata (Cascade) Uma técnica refina as recomendações dadas por outra.
Aumento do recurso(Feature augmentation)
A saída de uma técnica é utilizada como uma característica de entrada para outra.
Fonte: (BURKE, 2002, p.7, tradução nossa)
Considerações finaisRecuperação Filtragem
Frequência de uso Usuário singular, curto prazo Uso repetitivo, longo prazo
Representação da necessidade
de informação
Palavras de consulta Perfil de usuário
Preocupações Coleta e organização dos
itens
Distribuição dos itens
Escopo do sistema Relevância dos itens para a
necessidade de informação
pontual
Processamento de um fluxo
de informações para
corresponder a gostos e
preferências
Exemplos Science Direct, Google
Acadêmico, Yahoo!
Amazon, Google News,
Youtube, Netflix
Considerações finais“A recuperação da informação e filtragem de informação são realmente dois lados da mesma moeda. Eles trabalham em conjunto para ajudar as pessoas a obter as informações necessárias para suas tarefas.” (BELKIN; CROFT, 1995, p.9, tradução nossa)
A maior parte dos problemas que parecem ser exclusivos para filtragem de informação são especializações de problemas que aparecem na recuperação da informação, na medida em que, grande parte da experiência e pesquisa em RI é diretamente relevante para FI.
Considerações finaisPor outro lado, pesquisadores como Pariser (2011) argumentam que o uso de técnicas de filtragem de informação aplicados a recuperação da informação tem contribuído para o crescimento do que ele denomina de “Filtro Bolha”, uma consequência perigosa da personalização da web.
O emprego de tais tecnologias pode dificultar o acesso a novas informações que poderiam ampliar a visão de mundo, uma vez que tais técnicas adaptam a informação retornada a partir dos gostos pessoais e, desta forma, acabam tornando o ambiente da web um espelho unidirecional, tendo em vista que só refletirá seus próprios interesses.
referências bibliográficasADOMAVICIUS, G.; TUZHILIN, A. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions. IEEE Transactions on Knowledge and Data Engineering, New York, v. 17, n. 6, p. 734-749, June. 2005.
BAEZA-YATES, R.; RIBEIRO-NETO, B.. Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. 2ª ed. Porto Alegre: Bookman, 2013.
BELKIN, N.J.; CROFT, W.B. Information filtering and information retrieval: Two sides of the same coin?. Communications of the ACM, v.35, n.12, p.29-38, dez., 1992.
BELKIN, N.J. et al. Evaluating interactive information retrieval systems: Opportunities and challenges. In: Proceedings of CHI'2004, 1594-1595, 2004.
HANANI, U.; SHAPIRA, B.; SHOVAL, P. Information filtering: Overview of issues, research and systems. User Modeling and User-Adapted Interaction, v. 11, n.3, p. 203-259, 2001.
referências bibliográficasINTERNET LIVE STATS. 2016 Disponível em: <http://www.internetlivestats.com/> Acesso em 30 abr. 2016.
LOPS, P.; GEMMIS, M.; SEMERARO, G.. Content-based Recommender Systems: State of the Art and Trends. In: RICCI, F. et al. Recommender Systems Handbook. New York: Springer, 2011. p. 73-105.http://facweb.cs.depaul.edu/mobasher/classes/ect584/Papers/ContentBasedRS.pdf
MANNING, C. D.; RAGHAVAN, P.; SCHUTZE, H. I. Web search basics. In:An introduction to information retrieval. Cambridge: Cambridge University Press, 2007, p. 385--408. SARWAR, B. et al. Item-based Collaborative Filtering Recommendation Algorithms. In: Proceedings of the 10th international conference on World Wide Web, ACM, New York, 2001. p. 285-295. Disponível em: http://www10.org/cdrom/papers/519/ . Acesso em 30 abr. 2016.
XIE, I. Interactive Information Retrieval in Digital Environments. New York: IGI Publishing, 2008.