buscadores - cs.uns.edu.arcs.uns.edu.ar/~agm/mineriaweb/downloads/slides/clase08y09-slides… ·...
TRANSCRIPT
11
BuscadoresBuscadores
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
Buscadores
Tienen su raíz en sistemas de recuperación de la información
Preparan un índice de palabras claves para un corpusResponden a las consultas con una lista ordenada de documentos
ARCHIEImplementado en 1990 por Alan Emtage, Bill Heelan, y Peter J. Deutsch (McGillUniversity)Diseñado para indexar archivos ftp
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
consultas booleanas
Consultas simples para relacionar términos con documentos
Documentos que contengan la palabra JavaDocumentos que contengan la palabra Javapero no contengan la palabra café
Proximidad de términos en las consultasDocumentos que contengan la frase Java beanso el término APIDocumentos donde la palabra Java e islaaparecen en la misma oración
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
pre-procesamiento de documentos
Tokenssecuencias no vacías de caracteres excluyendo espacios y símbolos de puntuación. representados por un entero apropiado tid, generalmente de 32 bits
Transformación a Tokens (Tokenization)Filtrar tagsStemming (opcional)Resultado: cada documento (did) es transformado a una secuencia de enteros (tokens) y sus posiciones (tid, pos)
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
Implementación directa usando bases de datos
almacenamiento de tokens
My1 care2 is3 loss4of5 care6 with7 old8care9 done10
Your1 care2 is3 gain4of5 care6 with7 new8care9 won10
D1
D2
102won92care82new
…31is21care11my
posposdiddidtidtid
Hasta 10 veces el tamaño del texto originaladaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
índice invertido
My1 care2 is3 loss4of5 care6 with7 old8care9 done10
Your1 care2 is3 gain4of5 care6 with7 new8care9 won10
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
índice invertido con desplazamiento
My1 care2 is3 loss4of5 care6 with7 old8care9 done10
Your1 care2 is3 gain4of5 care6 with7 new8care9 won10
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
mantenimiento de índices
Indexado incrementalcostoso fragmentación
Para colecciones dinámicasun cambio a nivel de documento podría resultar en actualizaciones a cientos o miles de registros Solución : crear un índice adicional “stop-press index”
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
mantenimiento de índices
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
técnicas de compresión de índices
A partir de un índice invertido casi podría reconstruirse el documento original. Los IDs de los documentos ocupan la mayor porción del índice.
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
técnicas de compresión de índices
Delta encodingOrdenar índices en orden crecienteAlmacenar el primer ID en forma completaSubsecuentemente almacenar sólo la diferencia o grieta (gap) con ID siguiente. Notar que
para términos frecuentes la diferencia promedio de IDs será pequeñalos términos poco frecuentes no ocupan demasiado espacio
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
codificando gaps
Codificación óptimaSi el número de bits en el código para el valor x es L(x), el costo de este código es
que corresponde con el número esperado de bits necesarios para transmitir un símbolo.
Un código es óptimo si minimiza este costo.
)()Pr( xLxx∑
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
codificando gaps
Codificación binaria (número fijo de bits por ID)
óptimo para distribuciones uniformes
Codificación unaria (número variable de bits por ID)
óptimo si la probabilidad de gaps grandes decae exponencialmente
…..101100…..100001100100
1111011011111011…...11111101111111…..
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
codificando gaps
Elias Gamma code:asume que los enteros pequeños son mas probables y que la probabilidad decae proporcionalmente
916-3100001xxxx1132-63000001xxxxx
…
78-150001xxx54-7001xx
32-301x111
número de bitsenteroGamma code
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
dilemas generales
actualizaciones costosas vs. alto grado de compresiónespacio de almacenamiento vs. acceso directo escalabilidad
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
ordenamiento por relevancia (relevance ranking)
Consultas basadas en palabras clavesen lenguaje naturalno son precisas, a diferencia de SQL
la decisión no debería ser booleanaSolución
Darle un puntaje a cada documento dependiendo de su potencial para satisfacer la necesidad de información expresada por el usuario.Ordenar los resultados en orden decreciente y presentarlos al usuario
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
ordenamiento por relevancia (relevance ranking)
No existe una forma algorítmica de garantizar que el ordenamiento se corresponda con la necesidad del usuario
la consulta sólo expresa parte de la necesidad de información del usuario
¿Cómo mejorar dicho ordenamiento?esperar consultas más selectivas predecir las necesidades del usuario
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
respondiendo a las consultas
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
procedimiento de evaluación
BenchmarkCorpus D (n documentos)Conjunto Q (consultas)Por cada consulta, un conjunto exhaustivo de documentos relevantes es identificado manualmente
Para una consulta qel sistema devuelve un conjunto computar la lista de relevancia 0/1
ssside lo contrario.
Q q∈ D Dq ⊆
)d ,,d ,(d n21 …)r.., ,r ,(r n21
D d qi ∈1 ri =0 ri =
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
cobertura y precisión
Cobertura (recall) hasta un rango Fracción de documentos relevantes incluidos en
Precisión (precision) hasta un rango Fracción de k respuestas tope que son relevantes
)d ,,d ,(d k21 …
∑≤≤
=ki1
iq
r |D|
1 recall(k)
∑≤≤
=ki1
irk 1 k)precision(
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
otras medidas
Precisión promedio Suma de la precisión para cada respuesta relevante en la lista de respuestas, dividido por el número total de documentos relevantes
la precisión promedio es 1 sssi el buscador recupera todos los documentos relevantes y los posiciona antes de los irrelevantes.
∑≤≤
=||k1k
q
)(*r |D|
1 _D
kprecisionprecisionavg
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
otras medidas
Precisión interpoladausada para combinar valores de precisión de múltiples consultascurva de precisión-vs.-cobertura
Para cada consulta, tomar el valor de precisión máximo obtenido para la consulta para cualquier cobertura mayor o igual que promediarlo sobre todas las consultas
ρ
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
precisión y precisión interpolada vs. cobertura
kr
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
balance de cobertura y precisión
La precisión interpolada no puede aumentar con la coberturaA nivel k = 0
Precisión (por convención) = 1, Cobertura = 0Inspeccionar más documentos
puede aumentar la coberturapuede disminuir la precisión
Los buscadores con una buena función de ordenamiento generalmente muestran una relación negativa entre precisión y cobertura.
Cuanto más alta sea la curva, mejor el buscador
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
retroalimentación de relevancia (Relevance feedback)
javaconsulta:
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
Retroalimentación de relevancia (Relevance feedback)
Ayuda a los usuarios a mejorar la consulta“corrige” el orden basado en lo que quiere el usuarioAutomatiza el método de refinamiento de consultas
Método de RocchioDada una consulta
Sumarle los vectores correspondientes a documentos relevantes D+Restarle los vectores correspondientes a documentos irrelevantes D-
qr
∑ ∑+
+=D -D
d-dq'qrrrr
γβα
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
Retroalimentación de relevancia (contd.)
Retroalimentación de Pseudo-Relevancia
D+ y D- son generados automáticamenteEjemplo: sistema SMART de Cornell.los 10 documentos tope son incluidos en D+
D- generalmente no se usa Suele no estar disponible
los usuarios de la Web quieren gratificación instantáneaComplejidad y costo
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
ordenando por proporción de chance (odds ratio)
R : Variable aleatoria booleana que representa la relevancia de un documento d con respecto a una consulta q.
Aproximando la probabilidad de d mediante la probabilidad de los términos en d
),|Pr(/)|Pr(),|Pr(/)|Pr(
),Pr(/),,Pr(),Pr(/),,Pr(
),|Pr(),|Pr(
qRdqRqRdqR
dqdqRdqdqR
dqRdqR
== r
r
r
r
∏≈t t
t
qRxqRx
qRdqRd
),|Pr(),|Pr(
),|Pr(),|Pr(
r
r
∏∈ −
−∝
dt qtqt
qtqt
abba
qRdqRd
)1()1(
),|Pr(),|Pr(
,,
,,r
r
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
palabras más usadas
Palabras más usadas para consultasZeitgest
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
otras cuestiones
SpammingAgregar palabras de consulta popular a una página no relacionada a esos términos.Ejemplo: Agregar “Hawaii vacation rental” a una página sobre “Internet gambling”Ordenamiento basado en hiper-enlaces amortigua el efecto negativo
Títulos, encabezamientos, meta tags y anchor-text
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
otras cuestiones
incluir frasesoperadores para incluir y excluir palabraslas consultas dejan de ser puntos en espacio vectorial
diccionario de frasescatalogado manualmentederivado del corpus utilizando técnicas estadísticas… otras opciones?Dos índices:
términos individuales y frases
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
aproximar coincidencia de cadenas
Ortografía no uniforme dialectos del Ingléstransliteración
Dos formas de reducir el problema1. colapsar distintas formas ortográficas a
un único token (más agresivo)2. Descomponer términos a secuencias de
q caracteres (menos agresivo)
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
aproximar coincidencia de cadenas
1. Colapsar distintas formas ortográficas a un único token
• Ejemplo.: Soundex : toma en cuenta detalles fonéticos y de pronunciación
• usado con éxito para el indexado de apellidos en censos y guías telefónicas.
2. Descomponer términos a secuencias de q caracteres
• Verificar similaridad en secuencias de q caracteres (q-grams)
• Buscar en índice invertido:• Consultar pequeño índice de q-grams para expandir el
término a un conjunto de consultas distorsionadas • nuevas consultas son enviadas a un índice regular
)42( ≤≤ qq
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
sistemas de meta-búsqueda
Re-direccionamiento de consultas a varios repositorios distribuidos geográficamente, cada uno con su propio servicio de búsquda.Ventajas
Reescritura no trivial (diferentes sintaxis)Manejo de superposición de resultados
Consolidación de respuestasMás allá de eliminación de duplicadosManejo de ordenamientos diversos
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
búsqueda por similaridad
Hipótesis de clustersDocumentos similares a documentos relevantes suelen ser relevantes
Manejo de consultas del tipo “Findsimilar” (encontrar similares)
Páginas replicadasMirroring
adaptado de Soumen Chakrabarti
búsqueda
MINERIAMINERIADE LADE LA
WEBWEB
Bibliografía
Mining the Web: Discovering Knowledge from Hypertext Data,Soumen Chakrabarti, Morgan Kaufmann, 2002.