mineria de sesiones en motores de busqueda web
DESCRIPTION
Se describen metodos de mineria de datos aplicados a query logs de motores de busqueda los cuales permiten mejorar el ranking de documentos asi como recomendar consultas o mantener automaticamente directorios.TRANSCRIPT
![Page 1: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/1.jpg)
Minerıa de Sesiones enMotores de Busqueda Web
Marcelo MendozaYahoo! Research Latin America
2009
![Page 2: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/2.jpg)
Como buscar en la Web?
![Page 3: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/3.jpg)
Como buscar en la Web?
![Page 4: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/4.jpg)
Los usuarios nos dan feedback
Los motores de busqueda registran la actividad delusuario en logs (consultas, clicks, navegacion).
Podemos usar los logs para mejorar la efectividad delmotor de busqueda.
![Page 5: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/5.jpg)
El feedback de los usuarios
![Page 6: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/6.jpg)
Las sesiones de los usuarios: consultas
![Page 7: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/7.jpg)
Las sesiones de los usuarios: consultas
![Page 8: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/8.jpg)
Las sesiones de los usuarios: directorios
![Page 9: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/9.jpg)
Las sesiones de los usuarios: directorios
![Page 10: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/10.jpg)
Las sesiones de los usuarios
Motor de consulta: (q, (URL, r , t)∗)
Directorio: (c , (URL, r , t)∗)
q: consulta (terminos que la componen).
c : categoria del directorio (texto del path).
URL: documento seleccionado (pagina / sitio).
r : ubicacion del documento en la lista derecomendaciones.
t: tiempo que el usuario permanece revisando eldocumento.
![Page 11: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/11.jpg)
Minerıa de sesiones como proceso
![Page 12: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/12.jpg)
Minerıa de sesiones como proceso
![Page 13: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/13.jpg)
Actividad en la Web
![Page 14: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/14.jpg)
Relacion terminos documentos / consultas
| Q | = 27,766, | D | = 359,056, | Q ∩ D | = 22,692
![Page 15: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/15.jpg)
Modelos de Sesiones de Usuarios
[BYHMD05]
![Page 16: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/16.jpg)
Modelos de Sesiones de Usuarios
[BYHMD05]
![Page 17: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/17.jpg)
Modelos de Sesiones de Usuarios
[BYHMD05]
![Page 18: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/18.jpg)
Modelos de Sesiones de Usuarios
[BYHMD05]
![Page 19: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/19.jpg)
Las sesiones de los usuarios: Que sabemos?
Las consultas son cortas (2 a 3 terminos en promedio).
No siempre un termino frecuentemente usado enconsultas es frecuentemente usado en documentos.
Los clicks se concentran preferentemente en las primerasposiciones del ranking.
En general, los usuarios no revisan exhaustivamente losresultados (se concentran en los top-10).
Los directorios son poco usados pero son muy efectivos.
![Page 20: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/20.jpg)
Relaciones entre consultas
[DM06]
q2 puede mejorar q1!!! (se induce un grafo dirigido)
![Page 21: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/21.jpg)
Relaciones entre consultas
[DM06]
![Page 22: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/22.jpg)
Relaciones entre consultas
[DM06]
![Page 23: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/23.jpg)
Grupos de consultas (clustering)
Construir representaciones vectoriales de sesiones deconsultas.
Introducir una funcion de distancia entre vectores yagrupar usando un algoritmo de clustering estandar (e.g.k-means).
Explotar las relaciones definidas en cada grupo:
consulta ←→ consultaconsulta ←→ documentodocumento ←→ documento
Usar caracterısticas de las sesiones para construir vectores.
Vectores basados en terminos de consultas, terminos dedocumentos, ranking de documentos clickeados, numerode clicks, tiempo de permanencia en documento, etc...
![Page 24: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/24.jpg)
Relaciones entre documentos / consultas
![Page 25: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/25.jpg)
Vectores de consultas
Terminos de consultas: q[i ] = Tfi ,q · Idfi ,Q
Tfi ,q: numero de ocurrencias de ti en q (normalizado).
Idfi ,Q : log(NQni
).
Limitacion: q generalmente tiene pocos terminos (i.e.Tfi ,q = 0).
Version suavizada: q[i ] = (0.5 + 0.5 · Tfi ,q) · Idfi ,Q .
![Page 26: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/26.jpg)
Vectores de consultas
Co-citacion: dos consultas son similares si haycoincidencias entre los docs clickeados en sus sesiones.
Alternativas para los pesos: booleanos, ranking, clicks.
![Page 27: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/27.jpg)
Vectores de consultas
Consultas: usamos variables generadas en las sesionesdonde q ha sido formulada (que reflejan la actividad delusuario).
Tf-Pop
q[i ] =∑
URLs u Tfi ,u · C (u, s),
C (u, s): numero de clicks a u (sobre total de clicks).
[BYHM04a]
![Page 28: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/28.jpg)
Vectores de sesiones de consultas
Sesiones: usamos variables generadas en cada sesion (quereflejan la actividad del usuario).
No usamos clicks (C (u, s) es 1 o 0 en la sesion).
Usamos tiempo (tu: tiempo en el doc u, ts : duracion dela sesion).
Tf-Idf-Timeqs[i ] =
∑URLs u Tfi ,u · Idfi ,Q · tu
ts.
[BYHM07]
![Page 29: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/29.jpg)
Distribucion de distancias
Usamos distancia coseno.
[BYHM07]
![Page 30: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/30.jpg)
Clusters de consultas
[BYHM04b]
![Page 31: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/31.jpg)
Usando clusters de consultas
Mejorar el ranking! (usar los documentos mas clickeadosdel cluster).
Clasificacion de palabras:
Terminos en el cluster: sinonimia.Mismo termino en distintos clusters: polisemia.
Recomendar consultas (usar las consultas que retornan losdocumentos con mas clicks y en mejores posiciones).
![Page 32: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/32.jpg)
Minerıa de Sesiones en Directorios
Los directorios estan limitados en su crecimiento.
Idea: usando sesiones de usuario, producirautomaticamente recomendaciones de documentos en eldirectorio 7−→ crecimiento.
Usamos el log del directorio para construirrepresentaciones vectoriales de sesiones en el directorio.
Las asociamos a sesiones de consultas 7−→ recomendamosdocumentos seleccionados en las sesiones de consultas enel directorio 7−→ tambien asociamos consultas.
Categorias de Directorios
vc [i ] =∑
cs∈c vcs [i ]× 1r
![Page 33: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/33.jpg)
Minerıa de Sesiones en Directorios
![Page 34: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/34.jpg)
Minerıa de Sesiones en Directorios
MinSupp Relevant Recommended Precision Recall F-measure0.1 356 499 71.34% 63.46% 67.17%0.2 386 437 88.33% 68.81% 77.35%0.3 378 401 94.26% 67.38% 78.59%0.4 331 352 94.03% 59.01% 72.51%0.5 290 302 96.03% 51.69% 67.21%
Set Relevant Recommended Precision Recall F-measureA 378 401 94.26% 67.38% 78.59%H 470 500 94.01% 83.78% 88.61%
H ∩ A 289 297 97.31% 51.52% 67.37%H - A 181 203 89.16% 32.26% 47.38%A - H 89 104 85.58% 15.86% 26.77%
![Page 35: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/35.jpg)
Minerıa de Sesiones en Directorios
Category Queries Recommended
literature poetry, Chilean tales, Chilean poetry, Pablo Neruda, value added taxmuseums Bellas Artes museum, Historical museum, San Francisco church,
Claudio Bravo, Pablo Nerudaarchitecture architecture, architects, architecture’s information,
history of the Chilean architecture, Maipu templeAstronomy observatory, telescope, Paranal, pisco, wine tourBiology native plants, birds, flora and fauna, Chilean flora, insectsGeology Valdivia’s earthquake, 1960 earthquake, vulcanos, earthquakes, tremorHistory history of Chile, local history, naval battle of Iquique, Chilean folkloretechnologies nuclear physics, birds, telescopes, energy, Chilean climatehardware printers, optic fiber, lexmark, toner, CPUInternet e-business, e-commerce, P2P, web development, hostagesoftware free software, software errors, bar code’s sofware, sofwareinformatics computer networks install, networks, used notebooks, tutorialsreal estate properties, apartments, sales, rentals in Chile, housesarts master, tatoos, photography, Violeta Parra, Violeta Parra biographyphotography photography, digital photography, Chilean photography, photos,
Photography’s coursesrestaurants Vegetarian food, Mexican food, Japanese food, chiken, Chinese foodcommerce duty free Iquique, duty free Punta Arenas, duty free areas, taxestoys & games games, board games, PC games, PS2 tricks, PS2 gamesvideo & dvd DVD, DVD R, movie sales, DVD recording, CD R
![Page 36: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/36.jpg)
Intensiones detras de las consultas
Los usuarios manifiestan intensiones detras de susconsultas.
Quiero aprender acerca de algo:
batalla naval del Iquique
Quiero ir a una pagina / sitio especıfica:
Amazon
Quiero realizar una accion en particular:
Accesar un servicio: codigo postal de SantiagoDownload: mp3 King CrimsonComprar / vender: memorias RAM oferta
![Page 37: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/37.jpg)
Intensiones detras de las consultas
Broder ’02: informacion, navegacion, transaccion.
Informacion: el texto del documento es lo masimportante para la consulta.
Navegacion: la URL del documento es lo mas importantepara la consulta.
Transaccion: la funcionalidad del sitio es lo masimportante.
RankingSi conocemos la intension de la consulta, le damos masrelevancia al texto, URL u otro tipo de caracterısticas deldocumento.
![Page 38: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/38.jpg)
Identificacion automatica usando SVMsMethod Measures
TP Rate FP Rate Precision F-Measure
Informational - Other(0) tf-idf 0.6538 0.0292 0.9623 0.7786(1) tf-pop 0.58576 0.13281 0.84186 0.69084(2) tf-idf-time 0.92614 0.05141 0.89071 0.90808(3) tf-idf-pop-time 0.65000 0.23711 0.31138 0.42105Navigational - Other(0) tf-idf 0.9655 0.2597 0.6109 0.7483(1) tf-pop 0.92131 0.13475 0.88088 0.90064(2) tf-idf-time 0.99485 0.06870 0.87727 0.93237(3) tf-idf-pop-time 0.45455 0.01603 0.83333 0.58824Transactional - Other(0) tf-idf 0.91 0.0165 0.9192 0.9146(1) tf-pop 0.75692 0.05344 0.94615 0.84103(2) tf-idf-time 0.98438 0.05316 0.90000 0.94030(3) tf-idf-pop-time 0.70000 0.13153 0.41880 0.52406
[MZ09b]
![Page 39: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/39.jpg)
Identificacion automatica usando C 4.5
[MZ09a]
![Page 40: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/40.jpg)
Intensiones detras de las consultas
Que hemos aprendido?
Es posible identificar intensiones tras las consultas (esmas difıcil en el caso de transaccionales).
Lıneas de investigacion: mejorar el ranking.
![Page 41: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/41.jpg)
Minerıa de sesiones para distribucion de
documentos
![Page 42: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/42.jpg)
Minerıa de sesiones para distribucion de
documentos
Query routing
![Page 43: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/43.jpg)
Minerıa de sesiones para distribucion de
documentos
Query routing
[MFM+09a]
![Page 44: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/44.jpg)
Minerıa de sesiones para distribucion de
documentos
0) HIT, a) Contencion exacta, b) Contencion aproximada, c)Contencion por region, d) Diferencias de n-terminos.
[MFM09b]
![Page 45: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/45.jpg)
Minerıa de sesiones para distribucion de
documentos
Caching + Machine LearningUsar el location cache como training set para una maquina deaprendizaje.
Cuan probable es la maquina para una consulta enparticular?
P(y = ±1 | x, w) =1
1 + e−y(wT x+w0),
x : terminos de las consultas, y : id de los procs, w :modelo.
minw
1
2wT w + C
l∑i=1
log(1 + e−yi (wT xi +w0)),
![Page 46: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/46.jpg)
Minerıa de sesiones para distribucion de
documentos
INTER5%
8 16 32 64 128RANDOM 6.21 12.51 24.81 49.81 100PCAP 16.48 23.58 36.64 64.03 100SEMCACHE 11.68 19.17 32.55 57.66 100LOGRES 16.81 24.46 37.72 65.88 100
INTER10%
8 16 32 64 128RANDOM 6.20 12.51 24.85 49.88 100PCAP 14.56 21.36 34.34 62.31 100SEMCACHE 11.24 18.65 31.97 57.24 100LOGRES 15.11 22.27 34.82 63.90 100
INTER20%
8 16 32 64 128RANDOM 6.19 12.48 24.84 49.89 100PCAP 13.21 19.83 32.81 61.06 100SEMCACHE 11.01 18.37 31.65 56.97 100LOGRES 13.56 20.16 31.94 61.90 100
![Page 47: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/47.jpg)
Conclusiones
Podemos aprender del pasado!Las sesiones de los usuarios son muy utiles para mejorar laeficacia de los motores de busqueda
Ranking de documentos
Recomendacion de consultas
Mantencion de directorios
Clasificacion de consultas segun intension
Query routing
![Page 48: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/48.jpg)
Referencias I
R. Baeza-Yates, C. Hurtado, and M. Mendoza.
Query clustering for boosting web page ranking.
In AWIC ’04, 2004.
R. Baeza-Yates, C. Hurtado, and M. Mendoza.
Query recommendation using query logs in search engines.
In CLUSWEB ’04, 2004.
R. Baeza-Yates, C. Hurtado, and M. Mendoza.
Improving search engines by query clustering.
In Journal of the American Society for Information Systemsand Technology, 58(12):1793-1804, 2007.
![Page 49: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/49.jpg)
Referencias II
R. Baeza-Yates, C. Hurtado, M. Mendoza, and G. Dupret.
Modeling user search behavior.
In LA-WEB ’05, 2005.
G. Dupret and M. Mendoza.
Automatic query recommendation using click-through data.
In WCC ’06, 2006.
M. Marin, F. Ferrarotti, M. Mendoza, C. Gomez, andV. Gil-Costa.
Location cache for web queries.
In CIKM ’09, 2009.
![Page 50: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/50.jpg)
Referencias III
M. Mendoza, F. Ferrarotti, and M. Marin.
A last-resort semantic cache for web queries.
In SPIRE ’09, 2009.
M. Mendoza and J. Zamora.
Building decision trees to identify the intent of a user query.
In KES ’09, 2009.
M. Mendoza and J. Zamora.
Identifying the intent of a user query using support vectormachines.
In SPIRE ’09, 2009.
![Page 51: Mineria de Sesiones en Motores de Busqueda Web](https://reader034.vdocuments.pub/reader034/viewer/2022052623/559872331a28ab8f2e8b4604/html5/thumbnails/51.jpg)
Gracias!