especificação de consultas eveline alonso veloso puc-minas
TRANSCRIPT
Especificação de Consultas
Eveline Alonso VelosoPUC-MINAS
Referências
BAEZA-YATES, Ricardo e RIBEIRO-NETO, Berthier. Modern Information Retrieval. 1ª edição, New York: ACM Press, 1999, capítulo 4.
Introdução Consulta:
formulação da necessidade de informação do usuário de um sistema de recuperação de informação.
Dependendo da experiência do usuário; e da clareza de sua necessidade de
informação; uma determinada forma de especificar
sua consulta é selecionada.
Formas de Especificar uma Consulta Principais formas de especificar
consultas que geralmente aparecem em sistemas de recuperação de informação textual: consultas baseadas em palavras-chave:
consultas com uma única palavra-chave; consultas em um contexto:
frase exata; proximidade;
consultas booleanas; casamento de padrão; consultas estruturadas.
Consultas baseadas em Palavras-chave Para os modelos de recuperação
de informação clássicos; é o principal tipo de consulta.
Uma consulta é formada por palavras-chave e algumas restrições opcionais; os documentos que possuem as
palavras-chave especificadas e atendem as restrições estabelecidas são recuperados.
Consultas baseadas em Palavras-chave
Populares; intuitivas; fáceis de especificar; em geral, processadas
rapidamente.
Consultas com uma Única Palavra-chave
Consulta mais elementar. Consulta é formada por uma
palavra-chave; e os documentos que possuem
a palavra-chave especificada são recuperados.
Consultas com uma Única Palavra-chave
Consultas em um Contexto Palavras-chave especificadas;
são pesquisadas em um dado contexto;
ou seja, próximas umas às outras.
Dois tipos de consultas em um contexto: frase exata; proximidade.
Frase Exata
Sequência de palavras-chave.
Procura-se pela ocorrência da frase nos documentos indexados.
Frase Exata
Proximidade Versão mais “relaxada” da busca
por frase exata. Sequência de palavras-chave;
em geral, juntamente com a distância máxima permitida entre elas.
As palavras podem aparecer nos documentos recuperados; em uma ordem diferente daquela
em que foram especificadas na consulta.
Proximidade
Consultas Booleanas Forma mais antiga de especificar
consultas; combinando palavras-chave.
Consultas são especificadas como expressões booleanas; que possuem semântica precisa.
São compostas de: palavras-chave; operadores booleanos:
AND, OR, NOT. Exemplo:
recuperação AND informação
Operadores Booleanos AND (e) e OR (ou);
são conectores binários; possuem a mesma precedência.
NOT (não); conector unário; possui precedência sobre os
demais operadores booleanos.
Casamento de Padrão Um padrão é um conjunto de
características sintáticas que devem ocorrer em um segmento de texto.
Dizemos que os segmentos de texto que satisfazem às especificações do padrão; casam com o padrão indicado.
Casamento de Padrão Consultas mais complexas;
auxiliam a busca por palavras-chave;
complementando-a com recursos mais poderosos de recuperação de dados.
Quanto mais poderoso for o conjunto de padrões, mais complexa é a implementação
do sistema de recuperação de informação.
Tipos de Padrões
Prefixo; Sufixo; Substring; Permitindo erros; Expressão regular.
Prefixo
Padrão que deve ocorrer no início de uma palavra.
Exemplo: Padrão:
info; casa com:
informação; informática; etc.
Sufixo
Padrão que deve ocorrer no final de uma palavra.
Exemplo: Padrão:
info; casa com:
paraninfo; etc.
Substring Padrão que deve ocorrer em
qualquer lugar de uma palavra. Exemplo:
Padrão: info;
casa com: desinformado; paraninfo; informática; etc.
Permitindo Erros Padrão que corresponde a uma
palavra; juntamente com um patamar de erros.
Recupera palavras cujas escritas são similares à da palavra indicada.
Similaridade: distância entre duas palavras;
medida através do número mínimo de: inserções; remoções; e substituições.
Permitindo Erros
Exemplo: Padrão:
informação, permitindo 5 erros; casa com:
informacao; desinformado; informática; etc.
Expressão Regular Corresponde a um padrão com
operadores. Exemplos de operadores:
* pode ser substituído por 0 ou mais
caracteres; ?
pode ser substituído por um caracter.
Expressão Regular
Consultas Estruturadas Exploram a estrutura dos
documentos. Permitem combinar o
conteúdo do documento; com sua estrutura.
Permitem a especificação de consultas mais poderosas.