universidad de granadahera.ugr.es/tesisugr/15764552.pdf · figura 6.2. representación gráfica del...
TRANSCRIPT
UNIVERSIDAD DE GRANADA
ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA
INTELIGENTE PARA LA RECUPERACIOacuteN Y EL
FILTRADO DE INFORMACIOacuteN DE INTERNET
TESIS DOCTORAL
Juan Joseacute Samper Maacuterquez
Granada 2005
Departamento de Arquitectura y Tecnologiacutea de Computadores
UNIVERSIDAD DE GRANADA
ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA
INTELIGENTE PARA LA RECUPERACIOacuteN Y EL
FILTRADO DE INFORMACIOacuteN DE INTERNET
Memoria presentada por
Juan Joseacute Samper Maacuterquez
Para optar al grado de
DOCTOR EN INFORMAacuteTICA
Fdo Juan Joseacute Samper Maacuterquez
D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad
y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del
Departamento de Arquitectura y Tecnologiacutea de la Universidad de
Granada
CERTIFICAN
Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para
la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por
D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el
Departamento de Arquitectura y Tecnologiacutea de Computadores de la
Universidad de Granada para optar al grado de Doctor en Informaacutetica
Granada a 30 de septiembre de 2005
Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso
Director de la Tesis Director de la Tesis
A mi hijo
i
ii
Agradecimientos
Mi respeto y agradecimiento profundo a todas las personas que me han
ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis
Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su
paciencia y dedicacioacuten
iii
iv
Resumen
En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten
denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los
intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las
preferencias del usuario evitando la realimentacioacuten expliacutecita
Se realiza una revisioacuten de todos los conceptos relacionados con el sistema
mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el
problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente
Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la
implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos
demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses
de cada individuo
Abstract
In this thesis a new system called NectaRSS for information retrieval and filtering is
presented The system recommends information to a user based on his past choices The
method automatically accomplishes the task of user preferences acquisition avoiding
explicit feedback
In this work a review of all the concepts related to the system is first performed
showing different approaches to the problem of user profile construction emphasizing
web information retrieval systems where NectaRSS will be initially applied
The efficiency of the proposed method is proved applying it to the implementation
of an intelligent aggregator used by different and heterogeneous users proving its ability to
offer the information personalized according to each individualrsquos interests
v
vi
IacuteNDICE GENERAL
Agradecimientosiii
Resumen v
IacuteNDICE GENERAL vii
IacuteNDICE DE FIGURAS xi
IacuteNDICE DE TABLAS xv
1 INTRODUCCIOacuteN 1
11 Organizacioacuten de la tesis 2
2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5
21 Introduccioacuten5
22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7
2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13
222 El Modelo Probabiliacutestico 17
23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20
2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26
Navegadores 26 Agregadores de contenidos 27
233 Sistemas de recomendacioacuten 29
24 Resumen 31
3 EVALUACIOacuteN DE LOS SISTEMAS RI 33
31 Relevancia y Pertinencia 33
32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41
vii
IacuteNDICE GENERAL
324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45
3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46
33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50
34 Resumen 52
4 PERFILES DE USUARIO 55
41 iquestQueacute es un Perfil 55
42 Meacutetodos de creacioacuten de perfiles 56
43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60
44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61
4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61
442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63
4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64
45 Realimentacioacuten del usuario 64
46 Agentes Software y creacioacuten de perfiles 66
47 Modelos Estadiacutesticos 67
48 Razonamiento Basado en Reglas 68
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario
automaacutetico 68
410 Resumen 70
viii
IacuteNDICE GENERAL
5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS
BASADO EN PERFILES 73
51 Introduccioacuten73
52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de
navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario
77
53 Caacutelculo de la puntuacioacuten de los titulares79
531 Puntuacioacuten alternativa de los titulares 81
54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82
55 Resumen 83
6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85
61 Objetivo general del sistema y esquema de su experimentacioacuten 85
62 Metodologiacutea seguida 86
63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90
64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99
65 Resumen 100
7 RESULTADOS DE LOS EXPERIMENTOS101
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106
73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113
ix
IacuteNDICE GENERAL
752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122
77 Resumen 124
8 CONCLUSIONES 127
81 Principales Aportaciones y Conclusiones 128
82 Liacuteneas de investigacioacuten futuras 129
Bibliografiacutea y Referencias131
Anexo I Lenguajes de definicioacuten de documentos AI1
AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2
AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6
AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13
AI4 Atom AI15
Anexo II Un Agregador Inteligente AII1
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5
x
IacuteNDICE DE FIGURAS
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57
Figura 51 Vista general del sistema NectaRSS propuesto 74
xi
IacuteNDICE DE FIGURAS
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116
xii
IacuteNDICE DE TABLAS
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123
Figura AII1 Aspecto principal del programa NectaRSS AII1
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2
Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4
xiii
IacuteNDICE DE TABLAS
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105
xv
IacuteNDICE DE TABLAS
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123
xvi
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA
PRESENTE MEMORIA
RI Recuperacioacuten de Informacioacuten
SRI Sistema de Recuperacioacuten de Informacioacuten
E-P Par Exhaustividad-Precisioacuten
P Perfil de usuario
Ps Perfil de sesioacuten
Pr Perfil de resumen
T Conjunto de titulares
E(T) Conjunto de titulares elegidos
D(T) Conjunto de titulares destacados
CRS Con Resumen ndash Sin resumen
DIV Determinacioacuten del Intervalo de Vida
IRP Importancia Relativa de los Perfiles
CRS2 Con Resumen ndash Sin resumen (2)1
PAU Prueba del Algoritmo con diferentes Usuarios
PPA Probar Puntuacioacuten Alternativa
tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di
tfhk Frecuencia del teacutermino tk en el titular h
wij Relevancia del teacutermino tj en el documento di
wh Vector caracteriacutestica del titular h
sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh
fol Factor de olvido
CP Tasa que mide el porcentaje de titulares elegidos
1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros
xvii
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS
CR Tasa que mide el porcentaje de titulares ofrecidos destacados
CT Tasa que mide el porcentaje de titulares elegidos destacados
CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la
puntuacioacuten media maacutexima
E Error Absoluto Medio
σ Desviacioacuten Estaacutendar del Error
r Coeficiente de Correlacioacuten entre titulares
RP(i) R-Precisioacuten en la sesioacuten i
xviii
Capiacutetulo 1
INTRODUCCIOacuteN
En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente
indispensable y en la principal fuente de informacioacuten para una parte importante de la
poblacioacuten del mundo desarrollado
Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de
2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se
tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o
intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo
tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de
fuentes muy variadas
En general dada la gran cantidad de fuentes de informacioacuten disponibles
actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de
un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente
inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada
hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten
ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que
una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos
maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que
pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten
ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma
automaacutetica
Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de
informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias
que denominaremos NectaRSS
1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom
1
INTRODUCCIOacuteN
Como segundo objetivo buscaremos una forma de obtener las preferencias del
usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en
el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten
incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya
realizando tal usuario
Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear
ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes
estrategias y opciones para que el resultado sea oacuteptimo
11 Organizacioacuten de la tesis
Esta tesis se organiza de la forma siguiente
El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y
de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial
de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de
recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la
relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado
automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como
sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten
especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho
contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se
fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de
la Web en particular y en conocer los modelos tiacutepicos para representar los
documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute
el modelo vectorial
En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas
de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la
pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten
destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad
principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar
la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se
tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas
alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la
2
INTRODUCCIOacuteN
medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las
teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario
para aplicar dichas teacutecnicas al sistema experimental NectaRSS
El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes
se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas
para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de
adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la
adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil
de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de
razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la
realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil
correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas
utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los
modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o
ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas
Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web
basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro
trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de
usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las
preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para
representar las preferencias de eacuteste
En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y
recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador
inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema
comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil
de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la
utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute
coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del
coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema
propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la
base teoacuterica que subyace en dicho sistema
El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se
expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea
3
INTRODUCCIOacuteN
seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la
experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que
se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del
sistema en base a las variables consideradas en los experimentos distinguiendo
distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten
referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de
informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el
usuario respecto a la que le ofrece el sistema empleando para ello medidas como el
Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la
R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute
medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental
propuesto NectaRSS
En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados
obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer
conclusiones que permitan determinar diversos paraacutemetros del sistema y para
evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando
su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la
efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas
que evaluacutean su funcionamiento
Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales
aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido
y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la
tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir
de la investigacioacuten con NectaRSS
4
Capiacutetulo 2
LOS SISTEMAS DE RECUPERACIOacuteN DE
INFORMACIOacuteN
En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado
en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI
o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos
modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten
de informacioacuten en la Web y los sistemas de recomendacioacuten
El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis
NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea
de intereacutes de los usuarios analizando para ello el contenido de los documentos se
realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de
cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se
realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las
preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta
manera se podraacute recomendar la informacioacuten a cada usuario
21 Introduccioacuten
La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una
determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow
1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es
traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada
por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]
Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos
relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman
1998]
Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por
Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten
5
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza
define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de
informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos
relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo
[Baeza 1999]
Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno
recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se
diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los
gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un
conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que
determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la
peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de
indizacioacutenrdquo
Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel
conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]
22 Modelos para la recuperacioacuten de informacioacuten
Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se
obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar
la relevancia de un documento respecto a una consulta los meacutetodos para establecer la
importancia u orden de los documentos de salida y los mecanismos que permiten una
realimentacioacuten por parte del usuario para mejorar la consulta
Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por
[Dominich 2000] que se muestra en la tabla 21
Partiendo de la tarea inicial que realiza el usuario es posible realizar una
clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de
informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de
documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se
introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de
estructura guiada o de hipertexto seguacuten puede verse en la tabla 22
6
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Modelo Descripcioacuten
Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial
Alternativos Basados en la Loacutegica Fuzzy
Loacutegicos Basados en la Loacutegica Formal
Basados en la
interactividad
Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de
retroalimentacioacuten por relevancia
Basados en la
Inteligencia Artificial
Redes neuronales bases de conocimiento algoritmos geneacuteticos y
procesamiento de lenguaje natural
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente
[Dominich2000]
Vista loacutegica de los documentos
Teacuterminos iacutendice Texto Completo Texto Completo +
Estructura
Recuperacioacuten Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Estructurados
Mod
alida
d
Navegacioacuten Estructura plana Estructura plana
Hipertexto
Estructura guiada
Hipertexto
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la
modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]
221 El Modelo Vectorial
Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el
modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada
documento estaba representado por un vector de teacuterminos y cada componente del vector
representaba el peso wij del teacutermino tj presente en el documento di De esta manera la
representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)
donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento
di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino
Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en
funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una
coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera
a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21
7
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t1 t2 t3 hellip tj hellip tm
d1 w11 w12 w13 hellip w1j hellip w1m
d2 w21 w22 w23 hellip w2i hellip w2m
di wi1 wi2 wi3 hellip wij hellip wim
dn wn1 wn2 wn3 hellip wnj hellip wnm
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]
Una consulta podraacute representarse de igual misma manera que un documento
asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia
de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)
En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos
tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di
dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj
A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten
wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento
Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos
Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por
[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y
su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten
mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las
palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e
idf representa la frecuencia inversa del documento
8
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre
dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22
[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los
sistemas RI vectoriales
Medida de Similitud Modelo Vectorial
Producto escalar sum=sdot
m
i ii YX1
Coeficiente de Dice sum sum
sum= =
=
+
sdotsdotm
i
m
i ii
m
i ii
YX
YX
1 122
12
Coeficiente del coseno sum sumsum= =
=
sdot
sdotm
i
m
i ii
m
i ii
YX
YX
1 122
1
Coeficiente de Jaccard sumsum sum
sum== =
=
sdotminus+
sdotm
i iim
i
m
i ii
m
i ii
YXYX
YX
11 122
1
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]
Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno
mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten
como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la
medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de
teacuterminos como
sum sumsum
= =
=
sdot
sdot=
sdotsdot
=m
1j
m
1j2kj
2ij
m
1j kjij
ki
kiki
ww
ww
qdqd)qsim(d rrrr
(21)
Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede
observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una
consulta q respecto a los ejes t1 t2 y t3
9
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t3
t1
t2
d1 = 2t1+ 3t2 + 5t3
d2 = 3t1 + 7t2 + 1t3
q = 0t1 + 0t2 + 2t3
7
32
5
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo
vectorial Fuente [Raymond 2005]
El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se
efectuaraacute como sigue
810)400()2594(
52)( 1 =++sdot++
sdot=qdsim
130)400()1499(
12)( 2 =++sdot++
sdot=qdsim
teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)
De los resultados se deduce que el documento d1 es bastante maacutes similar a la
consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que
representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que
representa a d2 y el vector que representa a q tal y como puede verse en la figura 24
10
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
θ2
t3
t1
t2
d1
d2
q
θ1
θ2
t3
t1
t2
d1
d2
q
θ1
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la
consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]
Al contar con una medida de similitud como la del coseno entre cada documento y
una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los
documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)
sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no
exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente
de similitud
2211 Realimentacioacuten de la Relevancia
Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un
juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta
informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta
A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia
Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de
documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de
este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con
los documentos identificados previamente como relevantes y al mismo tiempo que sea
menos similar a los documentos marcados como poco relevantes por el usuario De esta
manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos
documentos irrelevantes que las consultas previamente formuladas
11
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
La reformulacioacuten de consultas se basa en las dos operaciones complementarias
siguientes
Los teacuterminos que aparecen en los documentos identificados previamente como
relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso
se incrementaraacute por un factor si ya se encontraban en dicho vector
Los teacuterminos que aparecen en los documentos previamente identificados como
no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso
seraacute reducido
Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como
se requiera para mejorar el resultado de la consulta
2212 Agrupacioacuten o ldquoclusteringrdquo de documentos
La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un
documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre
pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre
ellos puede definirse como
sum sumsum
= =
=
sdot
sdot=
sdot
sdot=
m
k
m
k jkik
m
k jkik
ji
jiji
ww
ww
dd
ddddsim
1 122
1)( rr
rr
(22)
Si determinamos la similitud entre pares de documentos se podraacute construir un
agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un
representante de esa clase denominado centroide
Dado un conjunto de m documentos que constituyen una clase p el centroide
Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los
documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p
puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de
documentos en la clase p
m
wc
m
1i ikpk
sum== (23)
12
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
De esta manera al organizar los documentos en clases la buacutesqueda de un
documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los
centroides de cada clase calculando los correspondientes coeficientes de similitud Luego
los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se
compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos
que resulten similares a la consulta
Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada
una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones
entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales
2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos
La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso
de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se
determinan los teacuterminos representativos del contenido de un documento y segundo se
asigna a cada teacutermino un peso o valor que refleje su importancia como representante del
contenido del documento
La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos
que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el
resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa
la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes
profundo
La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la
frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la
importancia de ese teacutermino como representante del contenido del documento Si
ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de
aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y
como enuncia la ley de Zipf en [Zipf 1949]
zordenfrecuencia asympsdot (24)
Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en
el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada
por el suyo correspondiente
13
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino
basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los
siguientes pasos
1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino
tj en cada documento di tfij
2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten
completa sumando sus frecuencias en los n documentos
sum==
n
1i ijj tftf_tot
3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas
que tengan un valor superior a un umbral dado para excluir las palabras
muy frecuentes
4 Del mismo modo se eliminan las palabras poco frecuentes
5 Las palabras restantes con una frecuencia media se utilizaraacuten para
caracterizar los documentos indexados
Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que
establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de
aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de
resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems
relevantes [Vegas 1999]
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]
14
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir
peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes
puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales
correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto
nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto
y su sustitucioacuten por frecuencias relativas mediante diversas estrategias
La Frecuencia de Documento Inversa Consiste en asumir que la importancia del
teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada
documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se
encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del
teacutermino tj en el documento di como
wij = tfij dfi (25)
El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso
de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de
documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)
para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud
generan valores entre 0 para documentos sin similitud y 1 para documentos
completamente iguales
Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se
puede calcular una similitud media para la coleccioacuten
sumsum= =
=n
1i
n
1jji )dsim(dcsim con i ne j (26)
donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una
medida de la densidad del espacio de documentos el grado en que los documentos se
agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim
tendriacutea el valor c n(n - 1) = 1
15
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para calcular de manera maacutes eficiente la densidad del espacio de documentos se
puede obtener un documento medio d como centroide cuyos teacuterminos se supone que
poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se
definiraacute como
sum=
=n
1iijj tf
n1tf (27)
En este punto se calcularaacute la densidad del espacio de documentos como la suma de
las similitudes de cada documento con respecto al centroide con la siguiente foacutermula
menos costosa que la (26)
sum=
=n
1ii )dd(simcsim (28)
Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los
documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en
este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una
distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos
los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de
documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se
asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio
de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos
documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre
documentos
Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como
simsimdv jj minus= (29)
Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten
ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que
16
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la
lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar
en tres categoriacuteas seguacuten su valor de discriminacioacuten
Buenos discriminadores con un valor dvj positivo que al ser considerados en la
indexacioacuten decrementan la densidad del espacio
Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o
adicioacuten no variacutea la similitud entre documentos
Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los
documentos
Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo
para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de
discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos
con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su
consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede
afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de
teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con
poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en
la indexacioacuten coincidiendo con los de frecuencia intermedia
Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la
frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de
discriminacioacuten
wij = tfij dvj (210)
222 El Modelo Probabiliacutestico
Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de
una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo
sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la
distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de
17
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la
relevancia para automatizar el ajuste del valor de sus paraacutemetros
La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los
teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial
La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en
la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los
documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de
los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada
de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la
coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero
de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que
incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado
de sumar las filas y columnas correspondientes
doc relevantes doc no relevantes
t isin doc r n - r n
t notin doc R - r N ndash n ndash R + r N - n
R N - R N
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]
Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck
Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino
basaacutendose en los resultados de una consulta previa
)(
)(log)(1
NnRr
tw = (211)
)(
)(log)(2
RNrn
Rr
tw
minusminus
= (212)
18
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
)(
)(log)(3
nNn
rRr
tw
minus
minus= (213)
)(
)(log)(4
rRnNrnrR
r
tw
+minusminusminusminus= (214)
Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores
destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de
experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)
proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)
23 La Web como sistema de recuperacioacuten de informacioacuten
Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para
intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto
y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la
informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era
evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el
acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han
convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad
de establecer viacutenculos entre los documentos
La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema
suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de
tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente
impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces
permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores
permitiendo asimismo almacenar referencias entre documentosrdquo
Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir
ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular
No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se
1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]
19
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior
crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres
antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se
hiciera apremiante
Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se
precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado
Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten
como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes
para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la
Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos
231 Meacutetodos de recuperacioacuten de informacioacuten en la Web
Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI
tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos
almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de
recuperacioacuten de informacioacuten en la Web
La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la
configuran como un entorno singular y diferente de los claacutesicos Algunas de estas
caracteriacutesticas son las siguientesrdquo [Delgado 2001]
Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes
de 8000 millones de paacuteginas web indizadas por el buscador Google
Heterogeneidad de las publicaciones en cuanto a
o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas
personales y comerciales
o Tipos de datos las paacuteginas web pueden contener texto simple y elementos
multimedia Ademaacutes admiten muchos formatos
o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y
aunque existen unas especificaciones de dicho lenguaje publicadas por el
2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I
20
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que
los navegadores son muy permisivos respecto a la sintaxis de los
documentos Esto dificulta su lectura e indizacioacuten mediante un programa
informaacutetico
o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el
autor o su fecha de publicacioacuten datos muy importantes en las referencias
bibliograacuteficas
o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e
instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad
cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores
tipograacuteficos
o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la
estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de
los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de
texto que cabe en la pantalla sin realizar desplazamientos con documentos
completos con el desarrollo de una idea Un documento puede contener
una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener
resuacutemenes o extractos de varios documentos
Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo
para cualquiera de los millones de internautas
Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como
resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo
de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian
totalmente de contenido manteniendo la misma URL
Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas
como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que
por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor
3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red
21
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles
mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra
ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la
diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su
organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario
determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo
[Delgado 2001]
2311 Herramientas de buacutesqueda en la Web
Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web
ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los
documentos existentes en la globalidad de la Web y permiten localizar informacioacuten
mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que
clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus
secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten
de su estructura hipertextualrdquo [Baeza 1999]
Motores de Buacutesqueda o Buscadores
Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y
localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea
a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea
diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un
rastreo recursivo de los documentos que se referencian [Delgado 2001]
Se puede observar el tamantildeo de la base de datos de los principales buscadores y su
evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6
5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom
22
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003
GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos
desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea
Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten
mediante un formulario Este puede consistir desde una simple caja donde teclear las
palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un
mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la
posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a
veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML
por tipo de fuente por aacuterea geograacutefica o dominio y por idioma
Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten
criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de
la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas
Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus
procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos
recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad
por lo que podemos encontrarnos con muchos resultados poco uacutetiles
Directorios
Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una
estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden
23
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey
Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary
of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en
algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten
estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten
para los usuarios asiduos de bibliotecas familiarizados con tales esquemas
En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad
formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio
Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada
Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la
estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario
puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten
adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta
Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que
elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar
globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la
estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea
en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos
existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y
clasificacioacuten de los documentos
Multibuscadores
Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta
dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces
recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler
[Selberg 1995] y SavvySearch [Howe 1997]
Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la
posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de
forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias
individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los
que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los
resultados de forma concatenada es decir para cada motor interrogado se presenta una lista
24
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
de los resultados obtenidos y otros que permiten obtener los resultados de forma
integrada eliminando los duplicados e indicando para cada resultado queacute buscador o
buscadores lo han proporcionadordquo
Buacutesquedas aprovechando la estructura hipertextual de la Web
Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo
utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo
mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software
La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de
enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo
podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una
imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para
posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes
importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y
los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para
representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL
[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]
La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de
texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La
principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en
el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute
utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada
para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de
que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la
buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con
ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las
paacuteginas ldquovecinasrdquo
Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica
en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes
heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en
cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados
recuperados [Baeza 1999]
25
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
232 Navegando por la informacioacuten de la Web
Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto
sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la
Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web
Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es
utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros
programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las
principales caracteriacutesticas de estos programas
Navegadores
Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario
recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a
traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea
Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de
viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o
enlaces
La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de
documentos de texto posiblemente con recursos multimedia incrustados Tales
documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que
enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado
con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en
cualquier ordenador conectado a Internet se llama navegacioacuten
El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de
1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en
determinados equipos de trabajo
El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para
distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape
Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad
7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas
26
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los
navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos
antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada
vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape
Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el
proyecto Mozilla
A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla
que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador
maacutes ligero que su hermano mayor
Agregadores de contenidos
Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas
paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo
RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta
manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas
fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para
obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta
Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]
[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una
parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes
para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas
fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar
alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten
aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el
usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de
presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la
figura 28
9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I
27
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom
Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que
proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de
informacioacuten con muacuteltiples opciones de personalizacioacuten
Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles
en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de
2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear
subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan
parcialmente el problema automatizando las consultas y aglutinando todos los contenidos
recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De
esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten
interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o
cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello
en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten
de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema
puntuacutee como interesante en base a sus intereses particulares
11 httpmyfeedstercomloginphp
28
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador
inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus
intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia
de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido
caracteriacutesticas que poseen lenguajes del tipo RSS o Atom
233 Sistemas de recomendacioacuten
En Internet existe una gran cantidad de sitios especializados que ofertan millones de
productos y servicios para su consumo Eacuteste hecho puede resultar un importante
inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones
existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun
sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo
servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a
sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un
proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos
relevantes para cada usuario en concretordquo [Serradilla 2005]
Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno
interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden
albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran
cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer
et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en
tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de
recomendacioacuten y al resto de aspectos del disentildeo
Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en
agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la
vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una
arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]
Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que
recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de
los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los
usuarios se representan como vectores en los que cada componente contendraacute la
valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este
29
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre
amigos
En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un
weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta
empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo
atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera
un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de
encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog
En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar
sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten
persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el
filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web
especializado
Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a
sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada
usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede
suministrar la informacioacuten clasificada individualmente proporcionando un orden
personalizado de conceptos para navegar por la Web El sistema se construye utilizando las
caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN
[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma
jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27
[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep
para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del
usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de
aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica
Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este
sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se
clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del
comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de
informacioacuten recomendado por el sistema
12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad
30
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente
httpwwwittckueduobiwan
24 Resumen
En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de
informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten
Se han expuesto varias propuestas de clasificacioacuten de los modelos para la
recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial
y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la
proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los
documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la
similitud entre documentos y consultas destacando la medida de similitud del coseno
ampliamente utilizada
Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario
para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos
para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre
pares de documentos
31
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para construir los vectores asociados a los documentos se necesita un proceso de
indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos
teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf
Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en
un documento por frecuencias relativas como la frecuencia de documento inversa o el
valor de discriminacioacuten
El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los
pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los
valores de una tabla de contingencias
Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten
de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar
meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda
de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros
sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando
lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software
Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo
disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la
informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes
para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al
comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones
electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques
Por uacuteltimo se han comentado los agregadores de contenidos que recogen
informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas
paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de
marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades
de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos
deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario
La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de
recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten
para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el
sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos
utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una
especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos
32
Capiacutetulo 3
EVALUACIOacuteN DE LOS SISTEMAS RI
Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada
expresamente a establecer medidas para valorar su efectividad Existen evaluaciones
basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer
conjunto de medidas alternativas que evitan realizar juicios de relevancia
Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema
NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los
sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para
posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la
relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para
comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de
medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de
deslizamiento y la medida de Voiskunskii
31 Relevancia y Pertinencia
Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en
gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten
[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el
teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo
Podemos entender entonces que un documento recuperado se consideraraacute relevante
cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad
de informacioacuten del usuario
Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir
problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse
como relevante o no
El mismo documento puede ser considerado como relevante por una persona e
irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas
33
EVALUACIOacuteN DE LOS SISTEMAS RI
Incluso el mismo documento puede resultar relevante o no a la misma persona en
momentos diferentes [Lancaster 1993]
Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un
documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que
explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel
concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser
explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]
Es posible que los documentos resulten relevantes en alguno de sus apartados con
una materia determinada pero no en el resto de sus contenidos Esta relevancia
parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute
adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua
en lugar de una funcioacuten binaria
Estos problemas condicionan la viabilidad de la relevancia como criterio en la
evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la
ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un
usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener
problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para
decidir si un documento le resulta uacutetil o no
Lancaster considera que la relevancia de un documento estaraacute relacionada con la
satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos
contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra
ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de
relacionar los contenidos de un documento con un tema determinado y pertinencia se
relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de
informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de
documentos recuperados se puede definir como el subconjunto de documentos apropiado
para la necesidad de informacioacuten del usuariordquo [Salton 1983]
Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo
como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces
decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno
proporcionaacutendole informacioacuten para alguacuten propoacutesito
Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta
34
EVALUACIOacuteN DE LOS SISTEMAS RI
manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto
de vista del usuario que realiza la operacioacuten de recuperar informacioacuten
32 Meacutetodos tradicionales de evaluacioacuten de SRI
La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos
puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el
acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o
no del contenido
Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo
de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et
al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten
la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la
exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son
faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que
mediraacuten verdaderamente la efectividad del sistema
Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas
divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el
tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y
la presentacioacuten [Chowdhury 1999]
Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre
el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas
en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del
resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes
Medidas basadas en la Relevancia
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos relevantes
Promedio de la
efectividad E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente
[Meadow1993]
35
EVALUACIOacuteN DE LOS SISTEMAS RI
Medidas basadas en el Proceso
Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el
grado de solapamiento con otras relacionadas
Contenido Tipo de documentos de la base de datos temaacutetica de los
documentos frecuencia de actualizacioacuten
Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o
precisa intermediacioacuten
Errores en el establecimiento de la
consulta
Media de errores sintaacutecticos en la escritura de la
buacutesqueda que propician la recuperacioacuten de conjuntos
vaciacuteos y erroacuteneos
Tiempo medio de realizacioacuten de la
buacutesqueda
Tiempo medio de realizacioacuten de una estrategia de
buacutesqueda
Dificultad en la realizacioacuten de la
buacutesqueda
Problemas que los usuarios inexpertos se pueden
encontrar
Nuacutemero de comandos precisos para una
buacutesqueda
Promedio de instrucciones necesarias para realizar una
buacutesqueda
Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten
Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda
Nordm de documentos revisados por el
usuario
Promedio de documentos que los usuarios estaacuten
dispuestos a revisar
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]
Medidas de resultado
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos relevantes
Promedio de la efectividad
E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Medidas promedio de la
satisfaccioacuten del usuario
Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante
el resultado de una buacutesqueda
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]
El conjunto de medidas basadas en la relevancia es el que se considera maacutes
importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de
otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar
36
EVALUACIOacuteN DE LOS SISTEMAS RI
aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las
basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia
introduciendo algunos aspectos diferenciadores
321 Medidas basadas en la relevancia
Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un
conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de
documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro
subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente
este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto
conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan
estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados
en el conjunto formado por la totalidad de documentos
documentos relevantes A
documentos no relevantes notA
documentos recuperados relevantes
A cap B
documentos recuperados no relevantes
notA cap B
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El
color maacutes oscuro indica el subconjunto B de documentos recuperados
Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de
buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en
donde A representa el conjunto de documentos relevantes B representa el conjunto de
37
EVALUACIOacuteN DE LOS SISTEMAS RI
documentos recuperados notA representa el conjunto de documentos no relevantes y notB
representa el conjunto de documentos no recuperados
RELEVANTES NO RELEVANTES
RECUPERADOS A cap B notA cap B B
NO RECUPERADOS A cap notB notA cap notB notB
A notA
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]
Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros
autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute
como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de
fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35
Precisioacuten |B|
|BA| cap
Exhaustividad |A|
|BA| cap
Tasa de Fallo |A|
|BA|notcapnot
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]
La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes
con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes
recuperados entre el total de documentos recuperados
La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes
recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy
difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero
no se podraacute afirmar esa cantidad con total seguridad
La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes
respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes
38
EVALUACIOacuteN DE LOS SISTEMAS RI
importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos
Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la
generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes
sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel
grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto
grado de generalidad tendraacute una mayoriacutea de documentos relevantes
Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola
precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece
en la siguiente expresioacuten
)G1(F)GE()GE(Pminus+sdot
sdot= (31)
en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo
Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad
asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse
en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje
Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de
[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente
relacionados
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]
39
EVALUACIOacuteN DE LOS SISTEMAS RI
Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean
medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los
usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a
un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la
necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la
cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute
considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si
que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se
buscaraacute una gran exhaustividad
322 Medidas orientadas al usuario
Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la
evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el
conjunto de documentos relevantes para una respuesta es siempre el mismo
independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la
realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son
relevantes y cuales no
Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de
que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la
relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y
[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los
antildeos setenta [Korfhage 1997] Se distinguen tres comunes
Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el
usuario ha recuperado
Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran
previamente desconocidos para el usuario
Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados
examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute
dispuesto a examinar
40
EVALUACIOacuteN DE LOS SISTEMAS RI
Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de
documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad
indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea
Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio
entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de
documentos examinados al intentar encontrar esos documentos relevantes Para ello se
parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y
el sistema permite al usuario localizar todosrdquo [Korfhage 1997]
323 Caacutelculo de la Exhaustividad y la Precisioacuten
Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se
presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute
una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que
enumeraremos a continuacioacuten
Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base
de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los
documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea
escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de
recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo
Otro procedimiento para calcular la exhaustividad consiste en asignar a varias
personas la tarea de analizar los documentos recuperados Este procedimiento resulta
complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el
usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios
de valor y lo que sea interesante para una puede no serlo para la otra
Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la
coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se
estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas
El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague
[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy
bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra
deberiacutea ser muy grande lo que complica el anaacutelisis
41
EVALUACIOacuteN DE LOS SISTEMAS RI
Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra
de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista
que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse
sin problemas a una base de datos global y por ello sugiere que puede hacerse
Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de
una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige
una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que
resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los
valores calculados para la exhaustividad y la precisioacuten son los siguientes
Relevante E P
d1 X 025 1
d2 X 05 1
d3 05 066
d4 X 075 075
d5 075 06
d6 075 05
d7 X 1 057
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos
Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben
realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un
uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un
documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el
total de documentos relevantes)
Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes
recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son
dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el
nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos
relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir
un graacutefico como el que se muestra en la figura 33
42
EVALUACIOacuteN DE LOS SISTEMAS RI
Pares de valores exhaustividad-precisioacuten
0
01
02
03
04
05
06
07
08
09
1
d1 d2 d3 d4 d5 d6 d7
Val
or
Exhaustividad Precisioacuten
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la
precisioacuten seguacuten Salton tomados de la tabla 36
Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja
claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la
coleccioacutenrdquo [Salton 1983]
Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de
una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten
corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial
de 1 hasta el de 066
324 Medidas promedio exhaustividad-precisioacuten
Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de
medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la
realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media
aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales
43
EVALUACIOacuteN DE LOS SISTEMAS RI
de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P
seraacute
sum= +
=N
1i ii
i
)NoRecRel(DRecRel(D)RecRel(D)
N1)D(dadExhaustivi (32)
sum= +
=N
1i ii
i
)RecNoRel(DRecRel(D)RecRel(D)
N1(D) Precisioacuten (33)
en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)
seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos
recuperados no relevantes siendo D el conjunto de documentos
A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores
diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez
de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la
figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de
valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten
como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como
aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la
relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica
buacutesqueda
Korfhage propone dos meacutetodos distintos para calcular el promedio de la
exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los
documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada
pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo
recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la
precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir
una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]
El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto
de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se
conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo
44
EVALUACIOacuteN DE LOS SISTEMAS RI
Graacutefico E-P
0
01
02
03
04
05
06
07
08
09
1
11
0 01 02 03 04 05 06 07 08 09 1 11 12
Exhaustividad
Prec
isioacute
n
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto
con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo
325 Valores sumarios simples
Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la
recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten
media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos
en estudio y segundo porque cuando comparamos dos algoritmos podemos estar
interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto
dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que
podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad
Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de
exhaustividad
3251 Precisioacuten media al observar documentos relevantes
Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden
de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada
aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir
observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media
45
EVALUACIOacuteN DE LOS SISTEMAS RI
seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que
recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto
valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor
pobre de exhaustividad global
3252 La R-Precisioacuten
La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos
ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo
R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si
consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden
entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10
documentos recuperados Esta medida puede utilizarse para observar el comportamiento
de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede
calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple
para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de
diversas consultas puede resultar impreciso
3253 Histogramas de Precisioacuten
Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la
historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el
valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i
respectivamente podemos definir la diferencia entre ambos valores como
RPAB(i) = RPA(i) - RPB(i) (34)
Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual
rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces
indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el
algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden
representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar
raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple
inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35
46
EVALUACIOacuteN DE LOS SISTEMAS RI
-15
-1
-05
0
05
1
15
1 2 3 4 5 6 7 8 9 10
Consultas
R-P
reci
sioacuten
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza
restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]
33 Otras medidas alternativas
Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la
seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas
ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en
funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las
medidas alternativas deberiacutean cumplir las siguientes condiciones
Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de
forma separada de otros criterios como el coste
Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos
recuperados no debe afectar a estas medidas
Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores
47
EVALUACIOacuteN DE LOS SISTEMAS RI
331 Exhaustividad y precisioacuten normalizadas
Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la
lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los
resultados al usuario formando una secuencia de documentos Incluso en sistemas que no
presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente
Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los
documentos siguientesrdquo [Korfhage 1997]
Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros
documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este
usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no
relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos
no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se
le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician
el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los
documentos al usuario
En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]
[Korfhage 1997]
Primero considera un sistema ideal donde los documentos relevantes se recuperan
antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la
exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe
que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido
devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se
muestra en la figura 36 siguiente
Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de
02 un documento relevante divido entre el total de cinco documentos relevantes de la
coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la
exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa
la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en
las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al
presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la
secuencia
48
EVALUACIOacuteN DE LOS SISTEMAS RI
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor
buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]
Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal
representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la
exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de
dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es
el nuacutemero total de documentos
Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el
resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda
ideal y la peor buacutesquedardquo [Rijsbergen 1979]
332 Ratio de deslizamiento
Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos
recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal
donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se
permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la
pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma
de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos
de los documentos que hubiera devuelto el sistema ideal
En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento
por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada
fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor
de uno
49
EVALUACIOacuteN DE LOS SISTEMAS RI
A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos
que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25
82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la
columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos
documentos habriacutean sido recuperados y presentados en el orden descendente de pesos
formando la columna ldquoΣ pesos idealesrdquo de dicha tabla
La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada
ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por
ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82
Ratio de Deslizamiento
N sum pesos reales sum pesos ideales Deslizamiento
1 70 82 085
2 120 152 079
3 120 204 059
4 145 254 057
5 227 299 076
6 272 336 081
7 309 367 084
8 320 392 082
9 372 403 092
10 403 403 1
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de
pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]
333 Medida de Voiskunskii
Este autor considera que los criterios para comparar los resultados de una buacutesqueda
ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda
y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el
establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]
Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko
I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos
medidas no cumplen totalmente los criterios comentados fundamentalmente porque se
50
EVALUACIOacuteN DE LOS SISTEMAS RI
infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra
cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a
conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants
Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de
los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con
los resultados siguientes
a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son
b Se recuperan 67 documentos siendo pertinentes 40 de ellos
c Se recupera un solo documento que resulta ser pertinente
Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores
para la medida I1
Buacutesqueda E P I1
a 05 05 1
b 04 0597 0997
c 001 1 101
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]
Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener
el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute
considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se
le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute
cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos
independientemente del valor matemaacutetico que nos devuelva la foacutermula
Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para
resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de
documentos relevantes recuperados y el nuacutemero de documentos que conforman el
resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del
producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta
medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39
51
EVALUACIOacuteN DE LOS SISTEMAS RI
En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto
para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la
mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior
En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir
en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo
Buacutesqueda E P I2
a 05 05 025
b 04 0597 02388
c 001 1 001
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]
34 Resumen
En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los
sistemas de Recuperacioacuten de Informacioacuten
Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante
un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten
con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos
resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito
Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten
Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas
RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la
precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de
documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la
precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el
tema
En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar
respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se
proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad
relativa
52
EVALUACIOacuteN DE LOS SISTEMAS RI
Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque
seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la
exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos
para calcular la exhaustividad como los manuales resultan complejos y costosos En otros
casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar
solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten
Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen
los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en
cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de
precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos
considerados
Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas
de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el
cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que
conforman el resultado
53
EVALUACIOacuteN DE LOS SISTEMAS RI
54
Capiacutetulo 4
PERFILES DE USUARIO
En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de
los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten
estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a
los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus
necesidades reales de informacioacuten
La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten
NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por
ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de
creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias
maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de
realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a
sus intereses y circunstancias
41 iquestQueacute es un Perfil
Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear
los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que
describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un
ordenador y puede utilizarse como representante del objeto en las tareas computacionales
Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten
la gestioacuten de conocimiento y el anaacutelisis de datos
Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del
comportamiento de un individuo hasta el perfil del funcionamiento de un programa de
ordenador En principio se puede hacer un perfil de todo y por consiguiente las
caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado
Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de
los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas
55
PERFILES DE USUARIO
especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos
antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes
El perfil de usuario va a contener informacioacuten modelada sobre el usuario
representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema
incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute
necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto
refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de
creacioacuten y gestioacuten de los perfiles de usuario
42 Meacutetodos de creacioacuten de perfiles
Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o
manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo
impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente
En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario
escribieacutendolos en su perfil de usuario o respondiendo a formularios
Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a
partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo
a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra
un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de
informacioacuten
Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se
modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de
Inteligencia Artificial para dichas tareas
Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente
para producir perfiles maacutes precisos y comprensibles
56
PERFILES DE USUARIO
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo
colaborativo de creacioacuten de perfiles Fuente [Rui 2003]
43 Meacutetodos de adquisicioacuten de los datos del usuario
En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de
datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten
activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de
adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos
para la clasificacioacuten del usuario
431 Informacioacuten Expliacutecita
La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el
propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener
mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas
iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo
1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el
usuario a un subgrupo de usuarios predefinido
57
PERFILES DE USUARIO
Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para
autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos
sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios
para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de
cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes
orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de
entretenimiento y pueden ofrecer incentivos para que el usuario las responda
Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta
los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea
inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta
paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo
inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que
responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa
de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo
[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]
432 Reglas de Adquisicioacuten
Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se
ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario
En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones
observadas del usuario o a una interpretacioacuten de su comportamiento
Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o
independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo
encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X
entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde
se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo
Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil
implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de
describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y
otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde
se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en
tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la
aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas
58
PERFILES DE USUARIO
variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que
seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten
especiacuteficas
433 Reconocimiento del Plan
Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan
realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una
base de conocimiento de tareas para modelar las posibles acciones del usuario y las
relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos
asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre
todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las
teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos
como en [Lesh 1995]
El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que
tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se
muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en
una aplicacioacuten de gestor de mensajes
434 Estereotipos
En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre
ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario
pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos
semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de
circunstancias [Rich 1979]
En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la
informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra
un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario
Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de
activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las
presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el
usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo
[Ambrosini et al 1997]
59
PERFILES DE USUARIO
Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al
1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro
importante que determina la efectividad de este meacutetodo va a ser la calidad de los
estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto
atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado
para cada estereotipo
435 Adquisicioacuten de Datos de Utilizacioacuten
En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo
para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que
registran las acciones del usuario para obtener informacioacuten de su comportamiento son
Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa
comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la
aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de
su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia
de navegacioacuten
Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales
[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes
aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que
los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las
acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el
comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y
para realizar automaacuteticamente acciones por el usuario
Tambieacuten se han construido perfiles de usuario orientados a su comportamiento
mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de
[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten
para modelar al usuario en sistemas educacionales
44 Representacioacuten del Perfil de Usuario
Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese
modelo el perfil de usuario para que pueda ser utilizado por otros componentes del
sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como
60
PERFILES DE USUARIO
pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los
contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten
los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales
Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y
las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de
razonamiento deductivo inductivo y analoacutegico
441 Razonamiento Deductivo
La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a
lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados
en la loacutegica y el razonamiento con incertidumbre
4411 Representacioacuten e Inferencia Loacutegica
El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra
bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo
lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas
sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del
tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del
concepto en la base de conocimiento del sistema
Para representar el conocimiento del sistema sobre el dominio y el conocimiento
del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de
conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de
proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la
incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a
meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten
de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]
4412 Representacioacuten y Razonamiento con Incertidumbre
Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden
utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo
es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas
61
PERFILES DE USUARIO
Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar
conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de
conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los
usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza
recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente
de ventas [Popp y Lodel 1996]
442 Razonamiento Inductivo Aprendizaje
En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se
monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales
basadas en las observaciones
En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier
tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten
afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica
especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten
personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar
filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario
partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de
mayor o menor intereacutes para el usuario basaacutendose en su perfil
Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En
Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico
para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de
documentos
En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario
se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las
palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas
adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic
1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones
claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los
perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que
represente a un documento cada peso podraacute expresar la importancia de la palabra en tal
documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la
importancia de la palabra para el usuario
62
PERFILES DE USUARIO
443 Razonamiento por Analogiacutea
El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios
En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de
usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo
de perfiles de usuario
4431 Filtrado Basado en Grupos
En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos
problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido
puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar
en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las
caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen
sistemas que buscan los usuarios que muestran un comportamiento interactivo similar
Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en
intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el
conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en
grupos [Alspector et al 1997]
Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula
las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las
clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se
utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker
y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus
marcadores de paacuteginas o ldquobookmarksrdquo
El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar
y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En
[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este
tipo
1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica
63
PERFILES DE USUARIO
4432 Agrupacioacuten de Perfiles de Usuario
Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute
considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de
usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios
El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos
utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un
algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes
formando perfiles de grupos de usuarios
[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de
aprendizaje para determinar el contenido de los estereotipos y para construir comunidades
de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45
[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se
corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo
una categoriacutea de noticias
El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende
expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los
documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del
usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su
perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho
perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las
caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema
realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que
considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el
usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no
visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores
45 Realimentacioacuten del usuario
Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una
secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario
comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten
La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La
realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema
64
PERFILES DE USUARIO
monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En
el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita
seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina
que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es
que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace
creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo
invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir
o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo
Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos
histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el
usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por
ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario
para ir confeccionando automaacuteticamente su perfil
Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al
usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con
respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten
que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra
parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable
puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no
es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en
dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en
ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede
suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener
modelos distintos uno del otro [Rui 2003]
Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la
realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten
positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa
puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute
auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa
Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de
utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se
requiera esfuerzo alguno por parte de eacuteste
65
PERFILES DE USUARIO
46 Agentes Software y creacioacuten de perfiles
Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en
entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese
entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo
Los agentes se han utilizado ampliamente en distintos campos comerciales
industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de
forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y
presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la
colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos
agentes se basaraacuten en alguacuten modo de conocimiento del usuario
Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software
convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su
ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten
capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no
impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un
sistema
La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute
principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes
que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes
podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de
inteligencia artificial
Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]
Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de
alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan
siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para
la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso
asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica
en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona
las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario
que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del
usuario y actualizar entonces su perfil
66
PERFILES DE USUARIO
47 Modelos Estadiacutesticos
Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis
estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute
paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten
para elaborar su perfil correspondiente
Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil
para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de
eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil
de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en
paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el
comportamiento en accesos del usuario y un grafo de accesos a la Web donde se
mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que
serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de
usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de
buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario
obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el
contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un
conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas
para evaluar el intereacutes de una paacutegina para un usuario
Las presunciones empiacutericas consideradas en [Chan 1999] son
1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor
intereacutes
2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes
3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso
indicaraacute que las paacuteginas son de intereacutes
4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa
paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa
paacutegina
En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio
de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de
enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina
puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones
67
PERFILES DE USUARIO
se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo
superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten
Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado
CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para
construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de
usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que
eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un
servidor web denominado JobFinder donde se graban los registros de actividad de los
usuarios
48 Razonamiento Basado en Reglas
Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas
pasados efectuando asociaciones a lo largo de relaciones generales para encontrar
soluciones al problema presente
Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose
en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio
existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario
se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos
partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y
la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema
dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino
basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de
usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos
enlaces que de otra manera estariacutean presentes en la paacutegina
El principal problema de estos sistemas seraacute la dificultad para describir y definir las
reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil
de usuario automaacutetico
Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas
que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo
68
PERFILES DE USUARIO
sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten
por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente
sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su
objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces
ordenados de mayor a menor puntuacioacuten seguacuten su perfil
Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo
utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por
el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir
elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web
recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su
frecuencia
Se distinguen dos aspectos de las preferencias del usuario las preferencias
persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de
usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones
En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario
se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar
procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se
representaraacute mediante un vector que se construye considerando ambos tipos de
preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para
calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea
anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la
foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1
Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos
teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o
de la frecuencia del teacutermino
La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia
del coseno entre ambos
wPwPw)sim(P rrr
sdotsdot
=r
(41)
De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo
con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de
similitud
69
PERFILES DE USUARIO
410 Resumen
En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos
para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten
de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se
incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros
casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones
adquiriendo sus datos de utilizacioacuten
Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una
representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del
sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e
inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos
numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o
aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el
aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios
En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los
documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen
dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el
meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario
Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos
permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza
el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten
expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e
implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en
proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten
Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes
software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda
y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma
automaacutetica recurriendo a teacutecnicas de inteligencia artificial
Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos
anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque
analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar
soluciones al problema presente sistemas de razonamiento basado en reglas
70
PERFILES DE USUARIO
Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite
realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico
elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo
vectorial y valores de similitud basados en la medida del coseno para clasificar los
resultados de una buacutesqueda
71
PERFILES DE USUARIO
72
Capiacutetulo 5
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE
CONTENIDOS BASADO EN PERFILES
En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su
evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y
diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario
En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone
un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un
perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al
usuario seguacuten su puntuacioacuten
El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten
en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario
utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del
perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute
coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]
Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto
aplicaacutendolo a la elaboracioacuten de un agregador inteligente
51 Introduccioacuten
El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un
mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten
la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado
automaacuteticamente
Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir
su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten
que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute
compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de
dicho contenido
73
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten
seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten
disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de
las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del
sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden
darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva
informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada
uacutenicamente por el inicio y fin de la ejecucioacuten del sistema
En la figura 51 se muestra una visioacuten general de este sistema propuesto donde
puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y
que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma
de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario
Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de
retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil
Usuario
Visualizar y seleccionar noticias
World Wide Web
Perfil de Usuario
Agregador de noticias
Puntuar la informacioacuten recuperada
Actualizar perfil
Proporcionar noticias relevantes
Seleccioacuten de noticias
Figura 51 Vista general del sistema NectaRSS propuesto
52 Construccioacuten automaacutetica de un perfil de usuario basado en su
historia de navegacioacuten
En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras
palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o
evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su
historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo
74
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas
sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se
recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa
informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten
Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar
diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo
de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen
por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el
perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las
preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario
construido con la historia de navegacioacuten por titulares durante S sesiones
Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis
Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el
usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En
primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como
sigue
(51) )ww(ww ht
ht
ht
hm21
=
donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino
Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define
como sigue
ht k
w
sum =
= m
1s sh
khht
tftf
wk
(52)
donde tfhk es la frecuencia del teacutermino tk en cada titular h
Entonces definimos a Ps como
(53) )psps(psPs21 ttts =
75
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la
sesioacuten j y tk denota cada teacutermino
Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps
sum=
=j
kk
S
1h
ht
jt w
S1ps (54)
Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente
seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la
ecuacioacuten (54) ktps
El perfil de usuario P se denotaraacute tambieacuten mediante un vector
(55) )pp(pPn21 ttt=
donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino
Cada elemento se define kt
p
sum sum= =
=T
1j
S
1h
ht
jt
j
kkw
S1p (56)
siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento
Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al
teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j
Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguientes expresiones
76
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Pj+1 = a Pj + b Psj para forall sub Psj (57) kt
p
Pj+1= Pj para forall nsub Psj (58) kt
p
donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual
se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a
Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como
se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras
cada sesioacuten
hllog2
tt ep)fol(pkk
minussdot= (59)
donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]
En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea
determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula
(510) siguiente
ktp
ktp
Pj+1 = fol( Pj) para forall nsub Psj (510) kt
p
521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten
del perfil de usuario
Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute
presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la
posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica
del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten
asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al
funcionamiento del sistema propuesto
Utilizando el modelo vectorial en este caso para los titulares que posean un
resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los
77
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a
partir de los teacuterminos que aparezcan en el resumen asociado
Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen
asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr
con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar
denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)
como sigue
(511) )ww(ww hrt
hrt
hrt
hrv21
=
donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk
denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento
de whr se define como sigue hrtk
w
sum =
= v
1s shr
khrhrt
tftf
wk
(512)
donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h
Entonces definimos a Pr como
(513) )prpr(prPv21 tttr =
y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr
sum=
=j
kk
Sr
1h
hrt
jt w
Sr1pr (514)
78
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj
seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se
muestra en la ecuacioacuten (514) kt
pr
Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias
en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior
Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguiente foacutermula
Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt
p
donde a y b son constantes que satisfacen a + b = 1
53 Caacutelculo de la puntuacioacuten de los titulares
Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente
vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el
titular h y tk denota cada teacutermino con el perfil de usuario donde n es el
nuacutemero de teacuterminos distintos y tk denota cada teacutermino
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular
h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la
seccioacuten 221 de esta tesis y propuesta por [Salton 1989]
hw
h
hh
wPwP)wsim(Psdotsdot
= =sum sumsum= =
=
sdot
sdotm
1k2m
1kht
2t
m
1khtt
kk
kk
(w(p
wp
)) (516)
El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para
cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya
puntuacioacuten sea mayor
79
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular
con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez
se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de
olvido
Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes
apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo
Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo
t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo
Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute
wh= ( = 033 = 033 = 033) 1t
ps 2tps3t
ps
Ahora suponemos que se tienen los siguientes valores en el perfil de usuario
correspondientes a los teacuterminos del titular h
P= ( = 003 = 001 = 009) 1t
p2t
p3tp
La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la
medida del coseno (516) se calcularaacute de la siguiente manera
)wsim(P h =)()(
)()()(222222 090010030330330330
090330010330030330++sdot++
sdot+sdot+sdot = 079
Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil
de usuario P en este ejemplo es de 079
80
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
531 Puntuacioacuten alternativa de los titulares
Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la
medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por
[Salton 1989]
Asiacute dado el correspondiente vector caracteriacutestica del titular h
donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario
donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino
entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del
titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
hw
=)wsim(P h
sum sumsumsum
= ==
=
sdotminussdot
sdotm
1k
m
1khtt
2m
1kht
2t
m
1khtt
kkkk
kk
wp)(w)(p
wp (517)
El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar
para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten
54 Descripcioacuten general del sistema NectaRSS
Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52
y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone
un sistema de recomendacioacuten de noticias recuperadas de la Web
Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador
inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2
De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores
tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo
implementa puede encontrarse en el Anexo II
1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I
81
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de
usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia
Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten
El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella
informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin
esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando
entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute
confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada
sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten
(55) mediante la foacutermula (57)
Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula
(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten
El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la
seccioacuten 53 utilizando la foacutermula (516)
Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que
aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula
(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps
como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten
(513)
541 Caracteriacutesticas singulares del sistema
NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental
del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten
dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin
embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va
elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la
informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin
distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de
usuario resulta maacutes sencillo
Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la
informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia
reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)
82
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten
2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al
comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las
similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para
conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias
a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente
Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias
utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda
informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada
seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente
ninguna aplicacioacuten similar con estas funciones
55 Resumen
En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten
de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a
los usuarios en la tarea de encontrar la informacioacuten que demandan
NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de
usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal
usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el
sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada
Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea
un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar
cada sesioacuten con el sistema
Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para
ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten
Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada
titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino
Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su
correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del
coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton
1989]
83
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
84
Capiacutetulo 6
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA
PROPUESTO
En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar
experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza
exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea
seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha
experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para
determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el
sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las
palabras y se describen los experimentos efectuados
En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del
sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la
Correlacioacuten entre titulares y la R-Precisioacuten
61 Objetivo general del sistema y esquema de su experimentacioacuten
El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el
filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base
a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones
satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y
faacutecilmente la informacioacuten que demande
Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas
1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus
elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de
informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5
2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64
de este capiacutetulo incluyendo
85
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de
puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas
informativas del sistema
minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para
cada sesioacuten con el sistema
3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el
funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos
en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten
632 Los resultados de estos experimentos y los paraacutemetros seleccionados se
expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente
4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a
las distintas medidas calculadas y prueba de un sistema alternativo de
puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los
experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos
resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente
62 Metodologiacutea seguida
Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se
procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio
formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de
noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo
II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes
La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin
embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes
En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en
una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar
usuarios para su prueba
86
RESULTADOS DE LOS EXPERIMENTOS
Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y
se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en
formato XML1 para su posterior anaacutelisis
El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de
treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica
Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa
fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido
como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello
que todos los valores que se ofrecen como resultado de los experimentos han sido
suficientemente contrastados por este meacutetodo
Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la
base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten
asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo
selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61
ltSESIOacuteNgt
ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt
ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt
ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt
ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt
ltTitular_sesioacutengt
ltTiacutetulogtMadrid 2012ltTiacutetulogt
ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt
ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt
ltFechagt2005-05-17T091249+0100ltFechagt
ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt
ltOrden_eleccioacutengt2ltOrden_eleccioacutengt
ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt
ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt
ltErrorgt06355515025975752ltErrorgt
ltTitular_sesioacutengt
ltSESIOacuteNgt
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La
ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden
en que el usuario lo ha elegido
1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas
87
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Antes de las sesiones de prueba en cada uno de los casos considerados en los
distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin
de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan
los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener
conclusiones
63 Estrategias de experimentacioacuten
Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la
primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para
comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los
resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil
de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones
Estas fases se describen maacutes detalladamente a continuacioacuten
Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute
se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos
titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el
intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas
proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)
Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada
experimento se compararaacuten los resultados para comprobar si existen variaciones
significativas y cuaacutel valor de entre los experimentados arroja mejores resultados
En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en
las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el
sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus
correspondientes preferencias temaacuteticas como cualquier otro usuario real Una
descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en
la seccioacuten 632
Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros
determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos
usuarios reales contrastando los resultados para determinar su validez En esta fase
se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste
iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que
permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar
88
RESULTADOS DE LOS EXPERIMENTOS
desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el
sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten
se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes
detallada de los usuarios experimentales y de los experimentos correspondientes a
esta fase se encuentra en la seccioacuten 632
631 Tratamiento de las palabras
Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se
analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la
descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una
a una todas las palabras
En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o
es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar
de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso
muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]
y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a
minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es
una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o
modificando sus valores de perfil si ya estaacute contenida
El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su
inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten
se podraacute forzar al sistema para que excluya las palabras que se deseen
Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del
analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten
comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado
por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por
52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la
herramienta ispell [DATSI 2005]
2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm
89
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
632 Descripcioacuten de los experimentos
A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema
Los cuatro primeros se corresponden con la primera fase destinada a probar diversos
paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento
del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el
uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas
distintas de puntuar la informacioacuten
Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada
sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el
Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea
diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea
Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la
seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el
primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto
de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de
los mismos titulares de noticias
Experimento 1 Con Resumen ndash Sin resumen (CRS)
En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la
consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de
usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee (ESIN)
Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)
Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se
probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados
obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores
experimentados resulta maacutes beneficioso para el sistema Para este experimento el
90
RESULTADOS DE LOS EXPERIMENTOS
sistema estaraacute configurado con la mejor de las dos estrategias descritas en el
experimento CRS anterior
Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y
33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal
y como puede observarse en la figura 62
Representacioacuten del factor de olvido para distintos valores del intervalo de vida
07
075
08
085
09
095
1
105
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Intervalo de vida hl
Valo
r
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo
de vida hl
Experimento 3 Importancia Relativa de los Perfiles (IRP)
En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al
finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el
perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con
distintas importancias relativas para dichos perfiles modificando sus paraacutemetros
multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del
experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones
consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema
Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)
(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y
(a=90 b=10) abarcando uniformemente el intervalo [0 100]
91
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)
Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento
del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar
el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS
pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con
ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento
Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)
Considerando los resultados obtenidos en los cuatro experimentos anteriores se
configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten
de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios
reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en
cada una de las sesiones Al final del experimento se compararaacuten los resultados que se
hayan obtenido para cada uno de ellos para determinar si el sistema posee un
funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema
para que presente al usuario una lista aleatoria de titulares de entre los recuperados en
cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-
experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute
ldquoAZARrdquo
En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14
titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar
simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento
vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la
lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de
entre los recuperados en la sesioacuten
Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales
debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por
el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes
92
RESULTADOS DE LOS EXPERIMENTOS
proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar
estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los
titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera
sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos
los titulares recuperados
Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones
baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada
experimento
USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5
Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en
el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto
como medida alternativa en la seccioacuten 531 del capiacutetulo anterior
En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las
empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la
informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos
casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados
por puntuacioacuten para que escoja los que sean de su intereacutes
93
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
64 Medidas para la evaluacioacuten experimental del sistema
En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del
sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las
preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por
el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento
determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su
funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores
recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la
informacioacuten que maacutes le interesa
641 Tasas formadas por relaciones entre las variables observables
Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario
almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute
en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de
intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas
medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el
sistema
Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en
una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en
dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor
que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares
con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la
figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos
conjuntos como variables dependientes del sistema
El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de
las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas
para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para
ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el
apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares
que se le ofrecen al usuario o card(T)
En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los
que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el
94
RESULTADOS DE LOS EXPERIMENTOS
perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares
destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario
seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))
titulares T
titulares elegidos E(T)
titulares elegidos
destacados E(T) cap D(T)
titulares destacados D(T)
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la
seccioacuten 641
En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por
tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra
variable a considerar siendo su valor el de card(E(T))
Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir
un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal
cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se
corresponderaacute con card(E(T) cap D(T))
Si relacionamos entre si estas variables podremos definir varias tasas de valor simple
que nos ayuden a evaluar el sistema
Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten
respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como
95
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
T)T(EC P = (61)
Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la
sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares
Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada
mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como
T)T(DCR = (62)
Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de
titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al
total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones
iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del
usuario
Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con
puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT
definida como
T
)T(D)T(ECTcap
= (63)
Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con
puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los
titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede
con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa
En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los
conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del
funcionamiento del sistema
96
RESULTADOS DE LOS EXPERIMENTOS
titulares elegidos titulares
destacados
titulares elegidos
destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila
642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima
Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una
puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas
(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares
se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones
eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el
sistema
En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares
ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible
calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares
escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo
que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los
N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten
determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos
por el usuario y el valor )T(p maacuteximo se define la tasa CD como
)T(p))T(E(pC
maxD = (66)
en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados
a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al
nuacutemero de titulares escogidos por el usuario
97
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error
Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en
[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el
conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de
noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten
asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de
titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto
error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi
siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las
dos medidas siguientes
Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del
sistema Se calcularaacute seguacuten la foacutermula
N
eE
N
iisum
== 1 (67)
Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento
del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el
algoritmo Se definiraacute como
( )N
EEN
isum=
minus= 1
2
σ (68)
644 La Correlacioacuten entre titulares
En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a
ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera
anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los
titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al
seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un
subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN
representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la
siguiente medida
98
RESULTADOS DE LOS EXPERIMENTOS
Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los
titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente
escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto
mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute
el algoritmo [Hill 1995] Se definiraacute
[ ]
fc
N
iii ffcc
Nr σσ sdot
minussdotminussum= =1
)()(1
(69)
en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la
expresioacuten representa la covarianza
645 La R-Precisioacuten
Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se
generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de
puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para
ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de
titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario
entre los ofrecidos por el sistema
Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis
primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para
el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el
comportamiento del algoritmo para cada sesioacuten i del experimento
El valor de la R-Precisioacuten podraacute definirse en este caso como
))T(E(card))T(E(posR)i(RP
i
i= (610)
en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros
titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al
nuacutemero total de titulares elegidos en dicha sesioacuten
99
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
65 Resumen
Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para
verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la
presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este
sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del
sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que
realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten
Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en
el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se
seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se
realizaron diversos experimentos analizando al final de cada uno de ellos los resultados
obtenidos para valorar el funcionamiento del sistema propuesto
En la experimentacioacuten se distinguen dos fases principales la primera destinada a
determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar
el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los
cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el
comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el
mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la
informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento
adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando
las palabras vaciacuteas y contabilizando las que se vayan considerando
Despueacutes de describir los experimentos se proponen diversas tasas y medidas para
cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de
titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras
relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su
similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error
Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es
la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el
comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6
mediante un valor simple
100
Capiacutetulo 7
RESULTADOS DE LOS EXPERIMENTOS
En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten
632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos
obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que
se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto
comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las
medidas que evaluacutean su funcionamiento
En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el
experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes
opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se
presentan los resultados del experimento DIV en el que se prueba el uso de un factor de
olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el
experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil
acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS
pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos
En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU
analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el
experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten
mediante la medida del coseno y mediante la medida de Jaccard
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)
Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del
sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para
la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras
se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y
los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN
101
RESULTADOS DE LOS EXPERIMENTOS
Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y
que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que
se basa en el valor de puntuacioacuten que el sistema asigna a los titulares
Para comparar los resultados de ambos sub-experimentos en la tabla 72 se
muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones
experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten
estaacutendar en los graacuteficos de las figuras 71 72 y 73
titulares elegidos titulares destacados
titulares elegidos destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
considerados La relacioacuten se establece dividiendo la columna por la fila
Experimento CRS ndash Valores medios de las tasas calculadas Caso
CP CR CT CD
ECON 02312 06292 01572 05646
ESIN 02312 04248 01269 05192
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30
sesiones experimentales
En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos
casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares
por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba
que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la
figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a
los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no
se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en
el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el
perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con
alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras
del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en
el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72
102
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
09Va
lor
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1
000
005
010
015
020
025
Valo
r
ECON ESIN
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
103
RESULTADOS DE LOS EXPERIMENTOS
Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso
ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las
anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten
media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media
maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y
como se define en la foacutermula (64)
Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
Valo
r
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza
los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor
medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor
Para comprobar si existen diferencias significativas entre los dos tratamientos del
perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos
obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba
estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su
normalidad condicioacuten indispensable para aplicar el test de Student
Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de
00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera
104
RESULTADOS DE LOS EXPERIMENTOS
muy significativo Por lo tanto se considera que si existen diferencias significativas entre el
caso ECON y el caso ESIN seguacuten la tasa CD
Paraacutemetros ECON ESIN
Media 05646 05192
Muestra 30 30
Desviacioacuten Estaacutendar 01740 01934
P del test de Normalidad 00572 gt010
Test t-Student (2 colas) 00025
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN
destacando el valor de la prueba t -Student para la tasa CD
Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la
praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados
hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos
titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con
mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender
directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el
sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y
CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no
ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan
al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede
esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de
significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea
de intereacutes
En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de
titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las
noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema
a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una
noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto
que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil
105
RESULTADOS DE LOS EXPERIMENTOS
Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento
del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras
del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente
sus resultados
Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el
perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias
estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor
cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la
mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de
titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a
su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que
cero
Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON
respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el
funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean
diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor
estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las
noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su
historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes
experimentos
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)
En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido
foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron
30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y
33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como
puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el
sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol
Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas
consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que
en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de
hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del
experimento 1 anterior
106
RESULTADOS DE LOS EXPERIMENTOS
Los valores medios obtenidos para la tasa CD en los distintos casos considerados
despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la
figura 74 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 2 ndash Valor medio de la tasa CD
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol
04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones
experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido
SINfol
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02
03
04
05
06
07
08
Valo
r
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida
hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan
valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol
Se observa que los resultados obtenidos por la tasa CD para los distintos valores del
intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha
calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la
obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para
107
RESULTADOS DE LOS EXPERIMENTOS
comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series
de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada
uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para
aplicar la prueba t- Student
Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de
06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera
no significativo Por lo tanto se considera que no existen diferencias significativas entre la
consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten
de tal factor de olvido seguacuten la tasa CD
Paraacutemetros Factor de olvido
con hl=7
Sin factor de
olvido
Media 05681 05652
Muestra 30 30
Desviacioacuten Estaacutendar 01500 01387
P del test de Normalidad gt010 gt010
Test t-Student (2 colas) 06292
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con
intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la
prueba t -Student para la tasa CD
Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de
diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido
con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema
pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten
se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es
por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el
proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute
durante los siguientes experimentos
108
RESULTADOS DE LOS EXPERIMENTOS
73 Experimento 3 Importancia Relativa de los Perfiles (IRP)
Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el
rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil
de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)
Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro
a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil
elaborado por la sesioacuten en curso
Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros
durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)
(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)
Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la
tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea
de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de
titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el
tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los
distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la
tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)
(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)
06186 06240 06283 06306 06319 06315 06286 06223 06123
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones
experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b
En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los
casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)
La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene
ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario
despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media
para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten
auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si
existen diferencias significativas entre las distintas series de valores
109
RESULTADOS DE LOS EXPERIMENTOS
Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos
paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten
Ps y el perfil acumulado P tal y como se define en la foacutermula (515)
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP
(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040
045
050
055
060
065
070
075
080
Valo
r
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de
usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par
(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)
Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta
al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la
elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el
experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las
diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados
Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten
los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten
50 para los paraacutemetros a y b de la foacutermula (515)
Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones
experimentales con el sistema considerando el caso que denotaremos por ECON2
110
RESULTADOS DE LOS EXPERIMENTOS
cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se
utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se
muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha
observado en el experimento 1
A diferencia de los experimentos anteriores donde se obtuvieron valores medios en
este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones
para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados
obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados
middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y
ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos
cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten
Experimento 4 - Resultados para la tasa CD
Lineal (ECON2) y = 00004x + 06538
Lineal (ESIN2) y = -00027x + 06788
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los
resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de
tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable
Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes
a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la
serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la
111
RESULTADOS DE LOS EXPERIMENTOS
pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo
largo de las sesiones para este segundo caso
Estos resultados nos confirman las conclusiones obtenidas para el experimento 1
donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las
noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos
de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada
sesioacuten con el sistema
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)
En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes
usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los
resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su
adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos
usuarios
Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se
configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que
presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por
puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos
titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar
desplazamiento vertical alguno
Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30
sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el
sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el
perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del
capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras
30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes
entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-
experimento al no existir perfil de usuario alguno se ofrecen todos los titulares
Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen
en las tablas y graacuteficos de las secciones siguientes
112
RESULTADOS DE LOS EXPERIMENTOS
751 Comparacioacuten de Tasas
En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la
sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se
representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas
en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se
representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN
a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de
titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en
el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la
sesioacuten
La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el
caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como
destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute
los mismos resultados que la tasa CT para el caso ldquoORDENrdquo
Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357
CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071
CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927
CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en
los casos ldquoORDENrdquo y ldquoAZARrdquo
Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267
CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062
CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845
CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones
experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo
113
RESULTADOS DE LOS EXPERIMENTOS
Observando el graacutefico de la figura 77 donde se representan los valores obtenidos
por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78
donde se representan los valores medios calculados para dicha tasa en las 30 sesiones
experimentales vemos que para todos los usuarios se han obtenido mayores valores para el
caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso
ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso
ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir
mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el
intereacutes del usuario
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de
0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo
Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30
sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo
Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el
caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Observando el graacutefico de la figura 79 donde se representan los valores obtenidos
por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710
donde se representan los valores medios calculados para dicha tasa vemos que para todos
los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los
titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al
azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el
usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor
cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados
seguacuten el intereacutes del usuario
114
RESULTADOS DE LOS EXPERIMENTOS
Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios
Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios
21 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
USUARIOS
Valo
r
ORDEN AZAR
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
115
RESULTADOS DE LOS EXPERIMENTOS
A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los
titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los
titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el
usuario escogiese todos los titulares recomendados por el sistema De esta manera se
obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos
de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de
0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos
los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376
en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un
220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios
116
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
12
USUARIOS
Valo
r
ORDEN AZAR
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
752 Error Absoluto Medio y Coeficiente de Correlacioacuten
En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se
presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso
ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes
medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y
porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece
En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten
experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula
(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se
representan estos resultados
En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten
experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en
la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente
117
RESULTADOS DE LOS EXPERIMENTOS
Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051
σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019
r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten
entre titulares en la sesioacuten experimental 30 por 15 usuarios
Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000
005
010
015
020
025
030
035
USUARIOS
Valo
r
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y
la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior
a 015 y una Desviacioacuten Estaacutendar media inferior a 005
Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios
experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025
obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2
11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos
los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios
118
RESULTADOS DE LOS EXPERIMENTOS
es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la
conclusioacuten anterior
Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten
entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios
En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten
entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los
usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente
un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares
propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten
753 La R-Precisioacuten
Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute
al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el
caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder
calcular entonces la precisioacuten en la posicioacuten R del orden
119
RESULTADOS DE LOS EXPERIMENTOS
La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten
del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones
experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los
titulares ordenados al usuario
En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los
15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan
en la figura 713
Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
01
02
03
04
05
06
07
08
09
10
USUARIOS
Valo
r
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el
sistema La media mayor es la del usuario 11 y la menor es la del usuario 8
En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten
para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que
maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]
120
RESULTADOS DE LOS EXPERIMENTOS
del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario
ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de
0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para
la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten
media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo
Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la
R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones
experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones
experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media
para esta medida el 11
En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos
por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia
de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se
calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la
pendiente y b es la interseccioacuten
Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios
y = 00058x + 03154
y = 00132x + 05664
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30
sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una
evolucioacuten favorable de la R-Precisioacuten
121
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de
la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de
tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en
ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo
para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de
titulares
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en el
experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como
medida alternativa en la seccioacuten 531 del capiacutetulo 5
En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas
noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno
para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el
usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan
en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De
esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de
resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante
la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el
mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten
Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP
CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no
resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna
manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en
ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares
similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo
Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados
sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la
sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo
la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la
puntuacioacuten media ideal que en el caso ldquoCOSrdquo
122
RESULTADOS DE LOS EXPERIMENTOS
Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los
valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica
que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo
En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r
en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la
figura 715 se representan graacuteficamente estos datos
Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias
caso r r
COS 0989 0964
JAC 0989 0936
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30
junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo
Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC
COS media COS JAC media JAC06
07
08
09
10
11
Valo
r
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de
Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y
ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo
123
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la
sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y
ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso
ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la
Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien
puntuados por el sistema
Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones
en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento
al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de
Jaccard
En general se puede concluir que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la
calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste
experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no
de una palabra en dicho perfil de usuario
77 Resumen
En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en
los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema
propuesto y su eficacia con diversos usuarios
El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema
considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con
nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de
los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos
versiones configuradas del sistema una considerando los resuacutemenes y otra sin
considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en
concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas
mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD
que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el
objeto de determinar que efectivamente existen diferencias significativas entre las dos
alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten
de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se
mantendraacute para el resto de experimentos
124
RESULTADOS DE LOS EXPERIMENTOS
En el segundo experimento (DIV) se probaron diversos valores para el intervalo de
vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En
este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas
propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse
exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados
del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece
significativamente al sistema por lo que finalmente se desestimoacute su uso
El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores
proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten
seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los
resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes
similitudes en el comportamiento de los pares considerados experimentalmente se observoacute
la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media
aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado
El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas
en el primer experimento (CRS) pero en este caso considerando los valores que se han
determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En
este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para
los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables
cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil
de usuario confirmando por tanto las conclusiones del primer experimento
El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con
diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo
realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales
Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la
misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes
necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de
titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario
correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el
sistema configurado para que ofreciera los titulares aleatoriamente al usuario
Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten
las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de
titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la
125
RESULTADOS DE LOS EXPERIMENTOS
Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen
funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la
puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge
cada usuario
Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten
obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se
analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los
usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos
una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un
comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente
mejores ordenaciones de titulares
Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida
distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida
del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores
medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos
medidas concluyendo por tanto que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten elegido
126
Capiacutetulo 8
CONCLUSIONES
En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo
para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de
fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus
preferencias
En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de
informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos
Posteriormente se describieron los aspectos a tener en cuenta para definir y crear
perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de
usuario y las teacutecnicas de inferencia asociadas
El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la
bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer
un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un
agregador inteligente que recomienda contenidos al usuario denominado NectaRSS
Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf
descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de
titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la
medida de Jaccard
Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y
se comproboacute su validez
Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de
investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS
127
CONCLUSIONES
81 Principales Aportaciones y Conclusiones
Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten
Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de
recomendar eacutesta a un usuario seguacuten sus preferencias
Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y
confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial
de seleccioacuten de la informacioacuten ofrecida
Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para
dar la informacioacuten maacutes relevante
Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se
realizan de manera totalmente transparente al usuario
Se han evaluado diferentes estrategias y opciones para que el resultado del sistema
sea oacuteptimo
Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para
distintos usuarios heterogeacuteneos
Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las
ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para
eacuteste que un orden aleatorio
Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se
aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente
128
CONCLUSIONES
elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los
titulares desde el punto de vista del usuario
El sistema demuestra un funcionamiento adecuado para distintos usuarios
El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la
informacioacuten elegido
El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a
sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica
puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que
realmente le interesa sin tener que realizar ninguna otra accioacuten adicional
82 Liacuteneas de investigacioacuten futuras
El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de
investigacioacuten originales que se considera de intereacutes abordar
Determinar el rendimiento del sistema considerando conjuntos de palabras
encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario
Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos
que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en
la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario
Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la
suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario
Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se
mantenga un perfil para cada usuario que visite la paacutegina de los titulares de
129
CONCLUSIONES
informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la
proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de
especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo
Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten
del perfil de usuario
Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses
Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la
informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen
distintos usuarios con perfiles similares
Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a
las que el usuario haya preseleccionado
130
Bibliografiacutea y Referencias
[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive
interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 22-32
[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a
Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso
(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia
Italy Wien SpringerWienNewYork 365-376
[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and
clique-based user models for movie selection a comparative study User Modeling and User Adapted
Interaction 7(4) 279-304
[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture
for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 59-61
[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable
system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159
[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and
Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998
[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press
Addison-Wesley 1999
[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In
Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey
USA 378-385
131
BIBLIOGRAFIacuteA Y REFERENCIAS
[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated
real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 215-226
[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan
recognition User Modeling and User Adapted Interaction 5(3-4) 317-348
[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989
[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier
Science Publishers 1990
[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext
reading system User Modeling and User Adapted Interaction 4(1) 1-19
[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user
modeling systems International Journal of Human-Computer Studies 40 31-62
[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible
Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004
httpwwww3orgTR2004REC-xml11-20040204
[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of
predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on
Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52
[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM
Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT
Press
[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation
Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean
VA Nov 2000 pp 227-234
httpwwwittckueduobiwan
132
BIBLIOGRAFIacuteA Y REFERENCIAS
[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles
Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer
Science Florida Institute of Technology Melbourne Australia
httpciteseeristpsueduchan99noninvasivehtml
[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W
Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989
[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London
Library Association 1999
[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the
Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project
Cranfield (1966)
[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the
American Society for Information Science v 24 March-April 1973 p87-92
[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing
interests International Journal on Digital Libraries 2 (1) 38-53
[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing
amp Management 23 4 1987 p 249-254
[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos
(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes
[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW
The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994
httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml
[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML
Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas
Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre
de 1998
133
BIBLIOGRAFIacuteA Y REFERENCIAS
[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW
Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998
[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW
Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001
httpservidortiuibesadelaidaCIVEadecivehtm
[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval
Journal of the American Society for Information Science 51 (7) 2000 p 614-624
[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005
httpwwwfeedstercom
[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-
site management system SIGMOD Record 26(3) 4-11 1997
[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information
provision for all users including disabled and elderly people The New Review of Hypermedia and
Multimedia 4 163-188
[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego
Academic Press cop1997 XIV 365 p
[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de
Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos
Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12
Nov de 2002
[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-
Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal
In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies
Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer
Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56
134
BIBLIOGRAFIacuteA Y REFERENCIAS
[Goo 2005] Google Directory RSS News Readers Julio de 2005
httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science
Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers
[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and
heuristics Boston Kluwer Academia Publishers 1998
[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S
The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference
Brisbane Australia 1998
[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic
Publishers 1994
[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system
for supporting information providers in directing users through hyperspace Proceedings of the 3rd on
Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and
Hypermedia 147-156
[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices
in a virtual community of use In Proceedings of CHI 95 Denver CO 1995
[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a
declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-
Oriented Database (DOOD) pages 386-398 Singapore 1997
[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search
engines to query AI Magazine 18(2) 19-25 1997
[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999
httpwwww3orgTRhtml401
135
BIBLIOGRAFIacuteA Y REFERENCIAS
[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an
overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251
1996
[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web
Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th
international conference on World Wide Web 2004
[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext
client of the user modeling system BGP-MS Proceedings of the 4th International Conference on
User Modeling 99-105
[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell
system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106
[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl
J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM
40(3) 77-87
[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley
Computer Publisher 1997
[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface
integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support
ergonomic design of manually and automatically adaptable software Lawrence Erlbaum
97-125
[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW
Conference Santa Clara CA USA 1997
[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington
Virginia Information Resources 1993
[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995
136
BIBLIOGRAFIacuteA Y REFERENCIAS
[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the
14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-
1710
[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer
collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International
Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf
[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of
the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-
929
[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis
Doctoral Universitat Jaume I Castelloacuten 2002
[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva
perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la
Informacioacuten (JOTRI) 2002
[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the
ACM 37 (7) 31- 40
[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86
[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press
1993
[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la
evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de
Documentacioacuten Nordm 7 pp 153-170 2004
[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten
de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten
II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004
137
BIBLIOGRAFIacuteA Y REFERENCIAS
[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user
preferences ontologies in recommender systems In Proceedings of the 1st International Conference
on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001
[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based
inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-
282
[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D
1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91
[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive
information access to scholarly publications on the Web Artificial Intelligence Laboratory
Department of Mathematics and Computer Science 2002
[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL
Development Officer Heriot-Watt University Edinburgh UK 2003
[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering
and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996
[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel
httpwwwuninechinfoclef
[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World
Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997
[OBIWAN 1999] OBIWAN Project University of Kansas 1999
httpwwwittckueduobiwan
[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system
User Modeling and User Adapted Interaction 4 (2) 107-130
[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User
Modeling and User Adapted Interaction 4 (3) 197-226
138
BIBLIOGRAFIacuteA Y REFERENCIAS
[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C
1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay
(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-
Verlag 45-54
[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert
Identifying interesting web sites Proceedings of the 13th National Conference on Artificial
Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml
[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval
progress report Information Processing and Management 36 2000 p 155-178
[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St
Augustin Germany
[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales
assistants User Modeling and User Adapted Interaction 5(3-4) 349-370
[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993
[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea
httpwwwraees
[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online
recruitment environment Smart Media Institute University College Dublin Ireland
mayacsdepauledu~mobasheritwp01papersrafterpdf
[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search
httpwwwcsutexaseduusersmooney
[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues
and Options Workshop House subcommittee on science research and technology
Washington DC Nov 3 1976
139
BIBLIOGRAFIacuteA Y REFERENCIAS
[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354
[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second
edition 1979 httpwwwdcsglaacukKeith
[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal
of American Society for Information Science 27(3)129-46 1976
[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD
Thesis Harvard University Report ISR-10 to National Science Foundation Harvard
Computation Laboratory (1966)
[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center
Editor Dave Winer En liacutenea julio de 2005
httpblogslawharvardedutechdirectory5aggregators
[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005
httpwwwrssfeedscomreadersphp
[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for
the web Communications of the ACM 40(3) 66-73
[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L
Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001
Enero 2003
[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971
[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer
Science Series McGraw-Hill 1983
[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of
Information by-Computer Addison-Wesley 1998
140
BIBLIOGRAFIacuteA Y REFERENCIAS
[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI
NOVATICA nordm 158 pag 5-9 2002
[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation
Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp
115-152
[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive
Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling
[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler
4th Int WWW Conference 1995
[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en
Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005
httpwwwsiaeuiupmesgruposAinfo2pdf
[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example
MIT Lab Cambridge USA
[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones
sobre Literatura en Espantildeol 2003
httppeterpaneuiupmesindexhtml
[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal
of Man-Machine Studies 23 71-88
[Snow 2005] Snowball httpsnowballtartarusorg
[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of
Documentation 31(4)266-72 1975
[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information
Processing and Management 15(3)133-44 1979
141
BIBLIOGRAFIacuteA Y REFERENCIAS
[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML
Technical report Text Encoding Initiative 1996
[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist
user modeling in a complex commercial software system User Model and User-Adapted Interaction
10 (2-3) 109-146
[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic
user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings
of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien
SpringerWien NewYork 189-200
[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited
Information Processing and Management 28 4 pp 467-490 1994
[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability
and usefulness of the WWW 5th International Conference on User Modeling 5-12
[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten
sobre Estructura y Contenido 1999
[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of
the American Society for Information Science 48(2) 1997 p133-142
[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a
methodology for production coherent consistent dynamically changing models of agentrsquos competencies User
Modeling and User Adapted Interaction 5 (2) 117-150
[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the
Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss
[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley
1949
142
Anexo I Lenguajes de definicioacuten de documentos
En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la
recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos
de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute
parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a
introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de
XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el
segundo denominado Atom con un cometido muy parecido al RSS
Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan
tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los
documentos para delimitar los elementos de estructura Por una parte diferenciaremos
entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de
distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de
definicioacuten de un tipo de documento concreto es decir una instancia de SGML
SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por
iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del
mundo editorial que son los contenidos y la forma de presentar esos contenidos en este
caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el
contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML
permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un
lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene
nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este
lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en
[Herwijnen 1994]
AI1 Hypertext Markup Language
HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado
que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su
estructura y contenido
AI-1
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia
difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su
consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]
El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes
documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que
sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria
sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador
que se utilice el responsable de asegurar que el documento tenga un aspecto coherente
independientemente del tipo de maacutequina desde donde se acceda al documento De esta
manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que
facilita enormemente su manejo por cualquier persona
HTML es un lenguaje muy sencillo que permite preparar documentos Web
insertando en el texto de los mismos una serie de etiquetas o tags que controlan los
diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas
que controlan el comportamiento del documento son fragmentos de texto encerrados entre
aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan
simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten
imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento
Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas
con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]
AI12 Evolucioacuten del Lenguaje HTML
El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico
objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre
fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el
lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se
habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador
realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el
sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994
Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se
descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de
HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo
borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades
AI-2
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de
expresiones matemaacuteticas
Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten
en HTML lenguaje apropiado para elaborar de manera sencilla documentos con
posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo
tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML
No se permite que el usuario especifique su propias etiquetas o atributos para
parametrizar o cualificar semaacutenticamente sus datos
No soporta la especificacioacuten de estructuras complicadas para representar esquemas
de bases de datos o jerarquiacuteas orientadas al objeto
No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar
la validez estructural de los datos en el momento de su importacioacuten
AI2 Extensible Markup Language
Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes
de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C
creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para
desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las
aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de
construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y
directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de
estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser
utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de
2005 es la 11 [Bray 2004]
Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la
Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar
Este subconjunto diferiraacute de HTML en tres aspectos fundamentales
1 Se pueden definir nuevas etiquetas y atributos
2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de
complejidad
AI-3
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
3 Cualquier documento XML puede contener una descripcioacuten opcional de su
gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una
validacioacuten estructural
El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el
contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron
[Bray 2004]
Debiacutea ser directamente utilizable sobre Internet
Debiacutea ser compatible con una amplia variedad de aplicaciones
Debiacutea ser compatible con SGML
Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML
Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero
Los documentos XML deberiacutean ser legibles y razonablemente claros
Un disentildeo de XML deberiacutea poderse preparar raacutepidamente
El disentildeo de XML debiacutea ser formal y conciso
Los documentos XML deben ser faacuteciles de crear
AI21 Estructura de XML
Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de
otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los
empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee
normalmente reflejando el tipo de contenido que delimitan
Un ejemplo de sencillo documento XML se muestra a continuacioacuten
ltpersonagt
ltnombre_completogt
ltnombregtJuanltnombregt
ltapellidosgtPeacuterez Fernaacutendezltapellidosgt
ltnombre_completogt
lttrabajogtfontanerolttrabajogt
ltpersonagt
AI-4
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos
elementos hijos del anterior denominados nombre_completo y trabajo En un
documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo
Aunque no es estrictamente obligatorio los documentos XML deben tener una
declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la
codificacioacuten del texto del documento encoding y la autonomiacutea del documento
standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten
externa para determinar los valores apropiados de ciertas partes del documento Una
declaracioacuten ejemplo es la siguiente
ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt
Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor
adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo
un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo
ltpersona nacida=rdquo23-06-1912rdquogt
Alan Turing
ltpersonagt
AI22 Documentos XML bien-formados
Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe
cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son
Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca
final ldquoltrdquo
Los elementos pueden estar anidados pero no superpuestos
Soacutelo puede existir un elemento raiacutez
Los valores de los atributos deben ir entrecomillados
Un elemento no puede tener dos atributos con el mismo nombre
Los comentarios y las instrucciones de proceso no pueden aparecer entre las
marcas
AI-5
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI23 Especificaciones XML
Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas
especificaciones para XML destacando las siguientes
DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento
Contendraacute una definicioacuten formal de un tipo de documento y a la vez una
especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina
como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado
concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional
en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar
bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se
dice que el documento XML es vaacutelido
XML Schema Es una manera de definir tipos de documentos alternativa a DTD
resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue
especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute
fechada a junio de 20052
XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo
de los documentos escritos para XML Permite modificar el aspecto de un
documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL
Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute
definir transformaciones en forma de reglas para convertir un documento XML en
otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir
el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas
bloques de texto en las paacuteginas graacuteficos y muchos otros
Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes
particulares de un documento XML Como soporte para este objetivo principal
tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y
booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de
1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath
AI-6
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un
documento XML
Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos
XML Los enlaces podraacuten ser simples como los habituales en HTML
bidireccionales enlazando dos documentos en ambas direcciones y
multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de
documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML
AI3 Rich Site Summary
ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir
faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para
utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros
muchos tales como los blogs7 o diarios personales en la Web
Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en
una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a
una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es
accesible mediante el enlace del fichero RSS
Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF
Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que
estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una
coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos
simultaacuteneamenterdquo [Moffat 2003]
AI31 Historia y Origen de RSS
Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en
su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado
6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html
AI-7
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador
ofreciendo una forma muy simple de publicar contenidos y permitiendo a los
desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo
Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten
anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la
aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos
RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como
propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado
por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de
extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten
constantemente Generalmente los ficheros se guardan con extensioacuten RDF
RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten
basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado
de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de
su objetivo proporcionar una herramienta para publicar contenidos de una forma
raacutepida y sencilla en la Web
AI32 RSS 092
Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente
compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son
opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido
Elementos obligatorios
En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el
documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o
canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a
continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss
AI-8
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio
ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt
ltdescriptiongt -- La frase que describe el canal
Elementos opcionales
ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos
son opcionales y otros tres son requeridos
lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal
lttitlegt -- Describe la imagen
ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los
elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del
canal
Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son
nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt
contendraacute un texto relacionado con el renderizado de la imagen en HTML
ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los
agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una
uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo
ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal
ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de
contacto para cuestiones de edicioacuten
ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de
contacto si existen problemas teacutecnicos
ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal
ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en
RSS estaraacuten conformes a la especificacioacuten RFC 82215
14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs
AI-9
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal
ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato
utilizado en el fichero RSS
lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione
realimentacioacuten en forma de texto Contiene varios sub-elementos que son
requeridos
lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto
ltdescriptiongt -- Describe el area de texto donde se escribe
ltnamegt -- Nombre del objeto de texto
ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto
ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos
del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o
Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en
este elemento
ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos
de hora que representan la hora en formato GMT17 Los lectores de noticias no
leeraacuten el canal durante las horas especificadas en este elemento
15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich
AI-10
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
iquestQueacute es un iacutetem
Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben
contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno
de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute
compuesto por los siguientes elementos opcionales
lttitlegt Es el tiacutetulo de la noticia
ltlinkgt Direccioacuten Web que apunta a la noticia
ltdescriptiongt Es el resumen de la noticia
Nuevos elementos respecto a la versioacuten RSS 091
ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal
RSS de donde proviene el item se deriva del tiacutetulo
ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto
adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra
ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten
el estaacutendar MIME18
ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo
opcional domain que identificaraacute la categoriacutea en una taxonomiacutea
ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un
servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal
18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje
AI-11
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 092
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un
canal y un elemento item
ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt
ltrss version=092gt
ltchannelgt
lttitlegtELPAISeslttitlegt
ltlinkgthttpwwwelpaisesltlinkgt
ltdescriptiongtRSS de ELPAISesltdescriptiongt
ltlanguagegtes-esltlanguagegt
ltitemgt
lttitlegtEspantildea consigue sus primeros oros en los Juegos del
Mediterraacuteneolttitlegt
ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt
ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una
exitosa jornada de competicioacuten donde sumoacute un total de 23
medallasltdescriptiongt
ltitemgt
ltchannelgt
ltrssgt
En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten
de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y
el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y
descripcioacuten correspondientes
AI-12
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI33 RSS 20
Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible
con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20
vaacutelido
Nuevos elementos respecto a la versioacuten anterior
Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan
definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han
incorporado los siguientes
ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la
direccioacuten Web donde se encuentran los comentarios acerca del item
ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el
programa que ha generado el archivo RSS
ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la
direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la
persona que ha escrito el artiacuteculo
ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de
vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el
canal en memoria antes de ser refrescado
ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que
indica cuaacutendo fue publicado el item
ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador
uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el
item es nuevo o no
AI-13
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 20
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un
canal y dos elementos item
ltxml version=10 encoding=utf-8 gt
ltrss version=20gt
ltchannelgt
lttitlegtEl Blog Salmoacutenlttitlegt
ltlinkgthttpwwwelblogsalmoncomltlinkgt
ltdescriptiongtEl Blog Salmoacutenltdescriptiongt
ltcopyrightgtCopyright 2005ltcopyrightgt
ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt
ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt
ltdocsgthttpblogslawharvardedutechrssltdocsgt
ltitemgt
lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt
ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt
ltitemgt
ltitemgt
lttitlegtVuelven las nacionalizacioneslttitlegt
ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt
ltitemgt
ltchannelgt
ltrssgt
Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS
tales como ltgeneratorgt y ltpubDategt
AI-14
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI4 Atom
Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten
de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la
distribucioacuten de contenidos y noticias de sitios web
Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares
similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de
muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en
proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom
La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005
Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda
raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener
maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS
Un ejemplo de Atom 10
Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una
sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de
RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt
ltxml version=10 encoding=utf-8gt
ltfeed xmlns=httpwwww3org2005Atomgt
lttitlegtEjemplo de entradalttitlegt
ltlink href=httpexampleorggt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltauthorgt
ltnamegtJuan Jltnamegt
ltauthorgt
ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt
ltentrygt
lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt
ltlink href=httpexampleorg20031213atom03gt
ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltsummarygtTexto del resumenltsummarygt
ltentrygt
ltfeedgt
19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html
AI-15
Anexo II Un Agregador Inteligente
Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos
disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa
desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el
mismo nombre por simplicidad
La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones
que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o
usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y
seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen
es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como
cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al
usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se
muestra el aspecto usual del programa
Figura AII1 Aspecto principal del programa NectaRSS
AII-1
UN AGREGADOR INTELIGENTE
Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea
acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute
otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya
subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre
seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos
tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS
Para efectuar los experimentos se dotoacute al programa de un modo de trabajo
especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni
destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha
considerado para no condicionar en modo alguno las decisiones del usuario experimental a
la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura
AII3
AII-2
UN AGREGADOR INTELIGENTE
Figura AII3 Aspecto del programa NectaRSS en modo experimento
Adicionalmente el programa genera una paacutegina web con las recomendaciones de
titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin
httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del
diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los
visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute
personalizado para un usuario concreto puede resultar interesante a personas que
compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en
la figura AII4
AII-3
UN AGREGADOR INTELIGENTE
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el
programa NectaRSS
A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la
evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del
programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los
experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos
resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores
numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo
informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad
AII-4
UN AGREGADOR INTELIGENTE
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema
Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web
Diario El Mundo (httpabraldesnetfeedselmundoxml)
Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)
Barrapunto (httpbackendsbarrapuntocombarrapuntorss)
Diario Marca (httpabraldesnetfeedsmarcaxml)
Kriptoacutepolis (httpwwwkriptopolisorgrss)
eCuaderno (httpwwwecuadernocomindexxml)
xataka (httpxatakacomesindexxml)
alzadoorg (httpwwwalzadoorgxmlalzadoxml)
Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)
tintachina (httpwwwtintachinacomindexxml)
Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)
Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)
TIME Magazine (httprsstimecomwebtimersstopindexxml)
CNET reviews (httpreviewscnetcom4924-5_7-0xml)
Artnovela (httpwwwartnovelacomarbackendphp)
Blogdecine (httpwwwblogdecinecomindexxml)
Stardustcf (httpwwwstardustcfcomrdfasp)
Una furtiva mirada (httpfurtivosbloxuscomrdfxml)
Pedro Jorge (httpwwwpjorgecomrss)
Atalaya (httpatalayablogaliacomrdfxml)
Malos Pensamientos (httpmpblogaliacomrdfxml)
Libryscom (httpwwwlibryscomfeedrss)
El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)
AII-5
UNIVERSIDAD DE GRANADA
ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA
INTELIGENTE PARA LA RECUPERACIOacuteN Y EL
FILTRADO DE INFORMACIOacuteN DE INTERNET
Memoria presentada por
Juan Joseacute Samper Maacuterquez
Para optar al grado de
DOCTOR EN INFORMAacuteTICA
Fdo Juan Joseacute Samper Maacuterquez
D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad
y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del
Departamento de Arquitectura y Tecnologiacutea de la Universidad de
Granada
CERTIFICAN
Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para
la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por
D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el
Departamento de Arquitectura y Tecnologiacutea de Computadores de la
Universidad de Granada para optar al grado de Doctor en Informaacutetica
Granada a 30 de septiembre de 2005
Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso
Director de la Tesis Director de la Tesis
A mi hijo
i
ii
Agradecimientos
Mi respeto y agradecimiento profundo a todas las personas que me han
ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis
Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su
paciencia y dedicacioacuten
iii
iv
Resumen
En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten
denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los
intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las
preferencias del usuario evitando la realimentacioacuten expliacutecita
Se realiza una revisioacuten de todos los conceptos relacionados con el sistema
mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el
problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente
Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la
implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos
demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses
de cada individuo
Abstract
In this thesis a new system called NectaRSS for information retrieval and filtering is
presented The system recommends information to a user based on his past choices The
method automatically accomplishes the task of user preferences acquisition avoiding
explicit feedback
In this work a review of all the concepts related to the system is first performed
showing different approaches to the problem of user profile construction emphasizing
web information retrieval systems where NectaRSS will be initially applied
The efficiency of the proposed method is proved applying it to the implementation
of an intelligent aggregator used by different and heterogeneous users proving its ability to
offer the information personalized according to each individualrsquos interests
v
vi
IacuteNDICE GENERAL
Agradecimientosiii
Resumen v
IacuteNDICE GENERAL vii
IacuteNDICE DE FIGURAS xi
IacuteNDICE DE TABLAS xv
1 INTRODUCCIOacuteN 1
11 Organizacioacuten de la tesis 2
2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5
21 Introduccioacuten5
22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7
2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13
222 El Modelo Probabiliacutestico 17
23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20
2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26
Navegadores 26 Agregadores de contenidos 27
233 Sistemas de recomendacioacuten 29
24 Resumen 31
3 EVALUACIOacuteN DE LOS SISTEMAS RI 33
31 Relevancia y Pertinencia 33
32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41
vii
IacuteNDICE GENERAL
324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45
3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46
33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50
34 Resumen 52
4 PERFILES DE USUARIO 55
41 iquestQueacute es un Perfil 55
42 Meacutetodos de creacioacuten de perfiles 56
43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60
44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61
4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61
442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63
4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64
45 Realimentacioacuten del usuario 64
46 Agentes Software y creacioacuten de perfiles 66
47 Modelos Estadiacutesticos 67
48 Razonamiento Basado en Reglas 68
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario
automaacutetico 68
410 Resumen 70
viii
IacuteNDICE GENERAL
5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS
BASADO EN PERFILES 73
51 Introduccioacuten73
52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de
navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario
77
53 Caacutelculo de la puntuacioacuten de los titulares79
531 Puntuacioacuten alternativa de los titulares 81
54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82
55 Resumen 83
6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85
61 Objetivo general del sistema y esquema de su experimentacioacuten 85
62 Metodologiacutea seguida 86
63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90
64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99
65 Resumen 100
7 RESULTADOS DE LOS EXPERIMENTOS101
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106
73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113
ix
IacuteNDICE GENERAL
752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122
77 Resumen 124
8 CONCLUSIONES 127
81 Principales Aportaciones y Conclusiones 128
82 Liacuteneas de investigacioacuten futuras 129
Bibliografiacutea y Referencias131
Anexo I Lenguajes de definicioacuten de documentos AI1
AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2
AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6
AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13
AI4 Atom AI15
Anexo II Un Agregador Inteligente AII1
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5
x
IacuteNDICE DE FIGURAS
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57
Figura 51 Vista general del sistema NectaRSS propuesto 74
xi
IacuteNDICE DE FIGURAS
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116
xii
IacuteNDICE DE TABLAS
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123
Figura AII1 Aspecto principal del programa NectaRSS AII1
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2
Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4
xiii
IacuteNDICE DE TABLAS
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105
xv
IacuteNDICE DE TABLAS
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123
xvi
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA
PRESENTE MEMORIA
RI Recuperacioacuten de Informacioacuten
SRI Sistema de Recuperacioacuten de Informacioacuten
E-P Par Exhaustividad-Precisioacuten
P Perfil de usuario
Ps Perfil de sesioacuten
Pr Perfil de resumen
T Conjunto de titulares
E(T) Conjunto de titulares elegidos
D(T) Conjunto de titulares destacados
CRS Con Resumen ndash Sin resumen
DIV Determinacioacuten del Intervalo de Vida
IRP Importancia Relativa de los Perfiles
CRS2 Con Resumen ndash Sin resumen (2)1
PAU Prueba del Algoritmo con diferentes Usuarios
PPA Probar Puntuacioacuten Alternativa
tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di
tfhk Frecuencia del teacutermino tk en el titular h
wij Relevancia del teacutermino tj en el documento di
wh Vector caracteriacutestica del titular h
sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh
fol Factor de olvido
CP Tasa que mide el porcentaje de titulares elegidos
1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros
xvii
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS
CR Tasa que mide el porcentaje de titulares ofrecidos destacados
CT Tasa que mide el porcentaje de titulares elegidos destacados
CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la
puntuacioacuten media maacutexima
E Error Absoluto Medio
σ Desviacioacuten Estaacutendar del Error
r Coeficiente de Correlacioacuten entre titulares
RP(i) R-Precisioacuten en la sesioacuten i
xviii
Capiacutetulo 1
INTRODUCCIOacuteN
En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente
indispensable y en la principal fuente de informacioacuten para una parte importante de la
poblacioacuten del mundo desarrollado
Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de
2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se
tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o
intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo
tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de
fuentes muy variadas
En general dada la gran cantidad de fuentes de informacioacuten disponibles
actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de
un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente
inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada
hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten
ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que
una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos
maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que
pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten
ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma
automaacutetica
Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de
informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias
que denominaremos NectaRSS
1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom
1
INTRODUCCIOacuteN
Como segundo objetivo buscaremos una forma de obtener las preferencias del
usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en
el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten
incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya
realizando tal usuario
Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear
ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes
estrategias y opciones para que el resultado sea oacuteptimo
11 Organizacioacuten de la tesis
Esta tesis se organiza de la forma siguiente
El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y
de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial
de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de
recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la
relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado
automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como
sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten
especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho
contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se
fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de
la Web en particular y en conocer los modelos tiacutepicos para representar los
documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute
el modelo vectorial
En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas
de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la
pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten
destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad
principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar
la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se
tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas
alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la
2
INTRODUCCIOacuteN
medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las
teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario
para aplicar dichas teacutecnicas al sistema experimental NectaRSS
El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes
se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas
para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de
adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la
adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil
de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de
razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la
realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil
correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas
utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los
modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o
ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas
Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web
basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro
trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de
usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las
preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para
representar las preferencias de eacuteste
En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y
recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador
inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema
comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil
de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la
utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute
coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del
coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema
propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la
base teoacuterica que subyace en dicho sistema
El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se
expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea
3
INTRODUCCIOacuteN
seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la
experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que
se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del
sistema en base a las variables consideradas en los experimentos distinguiendo
distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten
referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de
informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el
usuario respecto a la que le ofrece el sistema empleando para ello medidas como el
Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la
R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute
medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental
propuesto NectaRSS
En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados
obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer
conclusiones que permitan determinar diversos paraacutemetros del sistema y para
evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando
su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la
efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas
que evaluacutean su funcionamiento
Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales
aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido
y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la
tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir
de la investigacioacuten con NectaRSS
4
Capiacutetulo 2
LOS SISTEMAS DE RECUPERACIOacuteN DE
INFORMACIOacuteN
En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado
en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI
o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos
modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten
de informacioacuten en la Web y los sistemas de recomendacioacuten
El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis
NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea
de intereacutes de los usuarios analizando para ello el contenido de los documentos se
realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de
cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se
realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las
preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta
manera se podraacute recomendar la informacioacuten a cada usuario
21 Introduccioacuten
La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una
determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow
1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es
traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada
por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]
Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos
relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman
1998]
Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por
Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten
5
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza
define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de
informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos
relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo
[Baeza 1999]
Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno
recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se
diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los
gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un
conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que
determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la
peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de
indizacioacutenrdquo
Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel
conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]
22 Modelos para la recuperacioacuten de informacioacuten
Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se
obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar
la relevancia de un documento respecto a una consulta los meacutetodos para establecer la
importancia u orden de los documentos de salida y los mecanismos que permiten una
realimentacioacuten por parte del usuario para mejorar la consulta
Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por
[Dominich 2000] que se muestra en la tabla 21
Partiendo de la tarea inicial que realiza el usuario es posible realizar una
clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de
informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de
documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se
introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de
estructura guiada o de hipertexto seguacuten puede verse en la tabla 22
6
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Modelo Descripcioacuten
Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial
Alternativos Basados en la Loacutegica Fuzzy
Loacutegicos Basados en la Loacutegica Formal
Basados en la
interactividad
Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de
retroalimentacioacuten por relevancia
Basados en la
Inteligencia Artificial
Redes neuronales bases de conocimiento algoritmos geneacuteticos y
procesamiento de lenguaje natural
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente
[Dominich2000]
Vista loacutegica de los documentos
Teacuterminos iacutendice Texto Completo Texto Completo +
Estructura
Recuperacioacuten Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Estructurados
Mod
alida
d
Navegacioacuten Estructura plana Estructura plana
Hipertexto
Estructura guiada
Hipertexto
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la
modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]
221 El Modelo Vectorial
Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el
modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada
documento estaba representado por un vector de teacuterminos y cada componente del vector
representaba el peso wij del teacutermino tj presente en el documento di De esta manera la
representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)
donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento
di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino
Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en
funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una
coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera
a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21
7
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t1 t2 t3 hellip tj hellip tm
d1 w11 w12 w13 hellip w1j hellip w1m
d2 w21 w22 w23 hellip w2i hellip w2m
di wi1 wi2 wi3 hellip wij hellip wim
dn wn1 wn2 wn3 hellip wnj hellip wnm
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]
Una consulta podraacute representarse de igual misma manera que un documento
asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia
de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)
En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos
tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di
dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj
A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten
wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento
Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos
Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por
[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y
su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten
mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las
palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e
idf representa la frecuencia inversa del documento
8
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre
dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22
[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los
sistemas RI vectoriales
Medida de Similitud Modelo Vectorial
Producto escalar sum=sdot
m
i ii YX1
Coeficiente de Dice sum sum
sum= =
=
+
sdotsdotm
i
m
i ii
m
i ii
YX
YX
1 122
12
Coeficiente del coseno sum sumsum= =
=
sdot
sdotm
i
m
i ii
m
i ii
YX
YX
1 122
1
Coeficiente de Jaccard sumsum sum
sum== =
=
sdotminus+
sdotm
i iim
i
m
i ii
m
i ii
YXYX
YX
11 122
1
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]
Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno
mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten
como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la
medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de
teacuterminos como
sum sumsum
= =
=
sdot
sdot=
sdotsdot
=m
1j
m
1j2kj
2ij
m
1j kjij
ki
kiki
ww
ww
qdqd)qsim(d rrrr
(21)
Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede
observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una
consulta q respecto a los ejes t1 t2 y t3
9
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t3
t1
t2
d1 = 2t1+ 3t2 + 5t3
d2 = 3t1 + 7t2 + 1t3
q = 0t1 + 0t2 + 2t3
7
32
5
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo
vectorial Fuente [Raymond 2005]
El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se
efectuaraacute como sigue
810)400()2594(
52)( 1 =++sdot++
sdot=qdsim
130)400()1499(
12)( 2 =++sdot++
sdot=qdsim
teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)
De los resultados se deduce que el documento d1 es bastante maacutes similar a la
consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que
representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que
representa a d2 y el vector que representa a q tal y como puede verse en la figura 24
10
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
θ2
t3
t1
t2
d1
d2
q
θ1
θ2
t3
t1
t2
d1
d2
q
θ1
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la
consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]
Al contar con una medida de similitud como la del coseno entre cada documento y
una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los
documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)
sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no
exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente
de similitud
2211 Realimentacioacuten de la Relevancia
Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un
juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta
informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta
A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia
Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de
documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de
este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con
los documentos identificados previamente como relevantes y al mismo tiempo que sea
menos similar a los documentos marcados como poco relevantes por el usuario De esta
manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos
documentos irrelevantes que las consultas previamente formuladas
11
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
La reformulacioacuten de consultas se basa en las dos operaciones complementarias
siguientes
Los teacuterminos que aparecen en los documentos identificados previamente como
relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso
se incrementaraacute por un factor si ya se encontraban en dicho vector
Los teacuterminos que aparecen en los documentos previamente identificados como
no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso
seraacute reducido
Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como
se requiera para mejorar el resultado de la consulta
2212 Agrupacioacuten o ldquoclusteringrdquo de documentos
La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un
documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre
pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre
ellos puede definirse como
sum sumsum
= =
=
sdot
sdot=
sdot
sdot=
m
k
m
k jkik
m
k jkik
ji
jiji
ww
ww
dd
ddddsim
1 122
1)( rr
rr
(22)
Si determinamos la similitud entre pares de documentos se podraacute construir un
agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un
representante de esa clase denominado centroide
Dado un conjunto de m documentos que constituyen una clase p el centroide
Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los
documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p
puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de
documentos en la clase p
m
wc
m
1i ikpk
sum== (23)
12
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
De esta manera al organizar los documentos en clases la buacutesqueda de un
documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los
centroides de cada clase calculando los correspondientes coeficientes de similitud Luego
los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se
compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos
que resulten similares a la consulta
Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada
una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones
entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales
2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos
La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso
de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se
determinan los teacuterminos representativos del contenido de un documento y segundo se
asigna a cada teacutermino un peso o valor que refleje su importancia como representante del
contenido del documento
La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos
que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el
resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa
la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes
profundo
La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la
frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la
importancia de ese teacutermino como representante del contenido del documento Si
ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de
aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y
como enuncia la ley de Zipf en [Zipf 1949]
zordenfrecuencia asympsdot (24)
Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en
el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada
por el suyo correspondiente
13
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino
basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los
siguientes pasos
1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino
tj en cada documento di tfij
2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten
completa sumando sus frecuencias en los n documentos
sum==
n
1i ijj tftf_tot
3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas
que tengan un valor superior a un umbral dado para excluir las palabras
muy frecuentes
4 Del mismo modo se eliminan las palabras poco frecuentes
5 Las palabras restantes con una frecuencia media se utilizaraacuten para
caracterizar los documentos indexados
Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que
establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de
aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de
resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems
relevantes [Vegas 1999]
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]
14
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir
peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes
puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales
correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto
nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto
y su sustitucioacuten por frecuencias relativas mediante diversas estrategias
La Frecuencia de Documento Inversa Consiste en asumir que la importancia del
teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada
documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se
encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del
teacutermino tj en el documento di como
wij = tfij dfi (25)
El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso
de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de
documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)
para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud
generan valores entre 0 para documentos sin similitud y 1 para documentos
completamente iguales
Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se
puede calcular una similitud media para la coleccioacuten
sumsum= =
=n
1i
n
1jji )dsim(dcsim con i ne j (26)
donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una
medida de la densidad del espacio de documentos el grado en que los documentos se
agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim
tendriacutea el valor c n(n - 1) = 1
15
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para calcular de manera maacutes eficiente la densidad del espacio de documentos se
puede obtener un documento medio d como centroide cuyos teacuterminos se supone que
poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se
definiraacute como
sum=
=n
1iijj tf
n1tf (27)
En este punto se calcularaacute la densidad del espacio de documentos como la suma de
las similitudes de cada documento con respecto al centroide con la siguiente foacutermula
menos costosa que la (26)
sum=
=n
1ii )dd(simcsim (28)
Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los
documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en
este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una
distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos
los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de
documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se
asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio
de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos
documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre
documentos
Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como
simsimdv jj minus= (29)
Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten
ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que
16
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la
lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar
en tres categoriacuteas seguacuten su valor de discriminacioacuten
Buenos discriminadores con un valor dvj positivo que al ser considerados en la
indexacioacuten decrementan la densidad del espacio
Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o
adicioacuten no variacutea la similitud entre documentos
Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los
documentos
Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo
para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de
discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos
con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su
consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede
afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de
teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con
poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en
la indexacioacuten coincidiendo con los de frecuencia intermedia
Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la
frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de
discriminacioacuten
wij = tfij dvj (210)
222 El Modelo Probabiliacutestico
Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de
una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo
sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la
distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de
17
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la
relevancia para automatizar el ajuste del valor de sus paraacutemetros
La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los
teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial
La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en
la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los
documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de
los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada
de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la
coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero
de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que
incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado
de sumar las filas y columnas correspondientes
doc relevantes doc no relevantes
t isin doc r n - r n
t notin doc R - r N ndash n ndash R + r N - n
R N - R N
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]
Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck
Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino
basaacutendose en los resultados de una consulta previa
)(
)(log)(1
NnRr
tw = (211)
)(
)(log)(2
RNrn
Rr
tw
minusminus
= (212)
18
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
)(
)(log)(3
nNn
rRr
tw
minus
minus= (213)
)(
)(log)(4
rRnNrnrR
r
tw
+minusminusminusminus= (214)
Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores
destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de
experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)
proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)
23 La Web como sistema de recuperacioacuten de informacioacuten
Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para
intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto
y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la
informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era
evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el
acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han
convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad
de establecer viacutenculos entre los documentos
La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema
suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de
tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente
impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces
permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores
permitiendo asimismo almacenar referencias entre documentosrdquo
Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir
ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular
No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se
1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]
19
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior
crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres
antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se
hiciera apremiante
Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se
precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado
Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten
como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes
para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la
Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos
231 Meacutetodos de recuperacioacuten de informacioacuten en la Web
Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI
tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos
almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de
recuperacioacuten de informacioacuten en la Web
La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la
configuran como un entorno singular y diferente de los claacutesicos Algunas de estas
caracteriacutesticas son las siguientesrdquo [Delgado 2001]
Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes
de 8000 millones de paacuteginas web indizadas por el buscador Google
Heterogeneidad de las publicaciones en cuanto a
o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas
personales y comerciales
o Tipos de datos las paacuteginas web pueden contener texto simple y elementos
multimedia Ademaacutes admiten muchos formatos
o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y
aunque existen unas especificaciones de dicho lenguaje publicadas por el
2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I
20
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que
los navegadores son muy permisivos respecto a la sintaxis de los
documentos Esto dificulta su lectura e indizacioacuten mediante un programa
informaacutetico
o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el
autor o su fecha de publicacioacuten datos muy importantes en las referencias
bibliograacuteficas
o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e
instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad
cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores
tipograacuteficos
o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la
estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de
los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de
texto que cabe en la pantalla sin realizar desplazamientos con documentos
completos con el desarrollo de una idea Un documento puede contener
una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener
resuacutemenes o extractos de varios documentos
Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo
para cualquiera de los millones de internautas
Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como
resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo
de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian
totalmente de contenido manteniendo la misma URL
Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas
como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que
por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor
3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red
21
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles
mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra
ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la
diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su
organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario
determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo
[Delgado 2001]
2311 Herramientas de buacutesqueda en la Web
Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web
ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los
documentos existentes en la globalidad de la Web y permiten localizar informacioacuten
mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que
clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus
secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten
de su estructura hipertextualrdquo [Baeza 1999]
Motores de Buacutesqueda o Buscadores
Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y
localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea
a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea
diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un
rastreo recursivo de los documentos que se referencian [Delgado 2001]
Se puede observar el tamantildeo de la base de datos de los principales buscadores y su
evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6
5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom
22
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003
GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos
desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea
Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten
mediante un formulario Este puede consistir desde una simple caja donde teclear las
palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un
mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la
posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a
veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML
por tipo de fuente por aacuterea geograacutefica o dominio y por idioma
Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten
criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de
la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas
Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus
procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos
recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad
por lo que podemos encontrarnos con muchos resultados poco uacutetiles
Directorios
Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una
estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden
23
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey
Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary
of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en
algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten
estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten
para los usuarios asiduos de bibliotecas familiarizados con tales esquemas
En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad
formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio
Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada
Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la
estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario
puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten
adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta
Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que
elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar
globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la
estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea
en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos
existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y
clasificacioacuten de los documentos
Multibuscadores
Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta
dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces
recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler
[Selberg 1995] y SavvySearch [Howe 1997]
Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la
posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de
forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias
individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los
que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los
resultados de forma concatenada es decir para cada motor interrogado se presenta una lista
24
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
de los resultados obtenidos y otros que permiten obtener los resultados de forma
integrada eliminando los duplicados e indicando para cada resultado queacute buscador o
buscadores lo han proporcionadordquo
Buacutesquedas aprovechando la estructura hipertextual de la Web
Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo
utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo
mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software
La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de
enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo
podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una
imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para
posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes
importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y
los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para
representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL
[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]
La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de
texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La
principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en
el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute
utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada
para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de
que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la
buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con
ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las
paacuteginas ldquovecinasrdquo
Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica
en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes
heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en
cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados
recuperados [Baeza 1999]
25
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
232 Navegando por la informacioacuten de la Web
Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto
sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la
Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web
Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es
utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros
programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las
principales caracteriacutesticas de estos programas
Navegadores
Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario
recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a
traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea
Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de
viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o
enlaces
La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de
documentos de texto posiblemente con recursos multimedia incrustados Tales
documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que
enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado
con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en
cualquier ordenador conectado a Internet se llama navegacioacuten
El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de
1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en
determinados equipos de trabajo
El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para
distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape
Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad
7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas
26
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los
navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos
antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada
vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape
Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el
proyecto Mozilla
A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla
que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador
maacutes ligero que su hermano mayor
Agregadores de contenidos
Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas
paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo
RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta
manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas
fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para
obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta
Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]
[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una
parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes
para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas
fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar
alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten
aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el
usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de
presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la
figura 28
9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I
27
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom
Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que
proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de
informacioacuten con muacuteltiples opciones de personalizacioacuten
Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles
en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de
2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear
subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan
parcialmente el problema automatizando las consultas y aglutinando todos los contenidos
recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De
esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten
interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o
cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello
en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten
de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema
puntuacutee como interesante en base a sus intereses particulares
11 httpmyfeedstercomloginphp
28
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador
inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus
intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia
de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido
caracteriacutesticas que poseen lenguajes del tipo RSS o Atom
233 Sistemas de recomendacioacuten
En Internet existe una gran cantidad de sitios especializados que ofertan millones de
productos y servicios para su consumo Eacuteste hecho puede resultar un importante
inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones
existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun
sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo
servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a
sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un
proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos
relevantes para cada usuario en concretordquo [Serradilla 2005]
Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno
interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden
albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran
cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer
et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en
tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de
recomendacioacuten y al resto de aspectos del disentildeo
Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en
agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la
vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una
arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]
Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que
recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de
los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los
usuarios se representan como vectores en los que cada componente contendraacute la
valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este
29
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre
amigos
En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un
weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta
empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo
atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera
un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de
encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog
En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar
sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten
persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el
filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web
especializado
Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a
sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada
usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede
suministrar la informacioacuten clasificada individualmente proporcionando un orden
personalizado de conceptos para navegar por la Web El sistema se construye utilizando las
caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN
[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma
jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27
[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep
para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del
usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de
aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica
Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este
sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se
clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del
comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de
informacioacuten recomendado por el sistema
12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad
30
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente
httpwwwittckueduobiwan
24 Resumen
En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de
informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten
Se han expuesto varias propuestas de clasificacioacuten de los modelos para la
recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial
y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la
proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los
documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la
similitud entre documentos y consultas destacando la medida de similitud del coseno
ampliamente utilizada
Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario
para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos
para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre
pares de documentos
31
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para construir los vectores asociados a los documentos se necesita un proceso de
indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos
teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf
Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en
un documento por frecuencias relativas como la frecuencia de documento inversa o el
valor de discriminacioacuten
El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los
pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los
valores de una tabla de contingencias
Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten
de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar
meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda
de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros
sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando
lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software
Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo
disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la
informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes
para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al
comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones
electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques
Por uacuteltimo se han comentado los agregadores de contenidos que recogen
informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas
paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de
marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades
de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos
deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario
La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de
recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten
para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el
sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos
utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una
especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos
32
Capiacutetulo 3
EVALUACIOacuteN DE LOS SISTEMAS RI
Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada
expresamente a establecer medidas para valorar su efectividad Existen evaluaciones
basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer
conjunto de medidas alternativas que evitan realizar juicios de relevancia
Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema
NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los
sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para
posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la
relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para
comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de
medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de
deslizamiento y la medida de Voiskunskii
31 Relevancia y Pertinencia
Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en
gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten
[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el
teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo
Podemos entender entonces que un documento recuperado se consideraraacute relevante
cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad
de informacioacuten del usuario
Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir
problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse
como relevante o no
El mismo documento puede ser considerado como relevante por una persona e
irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas
33
EVALUACIOacuteN DE LOS SISTEMAS RI
Incluso el mismo documento puede resultar relevante o no a la misma persona en
momentos diferentes [Lancaster 1993]
Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un
documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que
explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel
concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser
explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]
Es posible que los documentos resulten relevantes en alguno de sus apartados con
una materia determinada pero no en el resto de sus contenidos Esta relevancia
parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute
adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua
en lugar de una funcioacuten binaria
Estos problemas condicionan la viabilidad de la relevancia como criterio en la
evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la
ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un
usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener
problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para
decidir si un documento le resulta uacutetil o no
Lancaster considera que la relevancia de un documento estaraacute relacionada con la
satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos
contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra
ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de
relacionar los contenidos de un documento con un tema determinado y pertinencia se
relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de
informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de
documentos recuperados se puede definir como el subconjunto de documentos apropiado
para la necesidad de informacioacuten del usuariordquo [Salton 1983]
Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo
como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces
decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno
proporcionaacutendole informacioacuten para alguacuten propoacutesito
Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta
34
EVALUACIOacuteN DE LOS SISTEMAS RI
manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto
de vista del usuario que realiza la operacioacuten de recuperar informacioacuten
32 Meacutetodos tradicionales de evaluacioacuten de SRI
La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos
puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el
acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o
no del contenido
Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo
de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et
al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten
la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la
exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son
faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que
mediraacuten verdaderamente la efectividad del sistema
Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas
divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el
tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y
la presentacioacuten [Chowdhury 1999]
Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre
el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas
en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del
resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes
Medidas basadas en la Relevancia
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos relevantes
Promedio de la
efectividad E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente
[Meadow1993]
35
EVALUACIOacuteN DE LOS SISTEMAS RI
Medidas basadas en el Proceso
Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el
grado de solapamiento con otras relacionadas
Contenido Tipo de documentos de la base de datos temaacutetica de los
documentos frecuencia de actualizacioacuten
Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o
precisa intermediacioacuten
Errores en el establecimiento de la
consulta
Media de errores sintaacutecticos en la escritura de la
buacutesqueda que propician la recuperacioacuten de conjuntos
vaciacuteos y erroacuteneos
Tiempo medio de realizacioacuten de la
buacutesqueda
Tiempo medio de realizacioacuten de una estrategia de
buacutesqueda
Dificultad en la realizacioacuten de la
buacutesqueda
Problemas que los usuarios inexpertos se pueden
encontrar
Nuacutemero de comandos precisos para una
buacutesqueda
Promedio de instrucciones necesarias para realizar una
buacutesqueda
Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten
Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda
Nordm de documentos revisados por el
usuario
Promedio de documentos que los usuarios estaacuten
dispuestos a revisar
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]
Medidas de resultado
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos relevantes
Promedio de la efectividad
E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Medidas promedio de la
satisfaccioacuten del usuario
Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante
el resultado de una buacutesqueda
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]
El conjunto de medidas basadas en la relevancia es el que se considera maacutes
importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de
otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar
36
EVALUACIOacuteN DE LOS SISTEMAS RI
aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las
basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia
introduciendo algunos aspectos diferenciadores
321 Medidas basadas en la relevancia
Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un
conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de
documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro
subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente
este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto
conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan
estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados
en el conjunto formado por la totalidad de documentos
documentos relevantes A
documentos no relevantes notA
documentos recuperados relevantes
A cap B
documentos recuperados no relevantes
notA cap B
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El
color maacutes oscuro indica el subconjunto B de documentos recuperados
Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de
buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en
donde A representa el conjunto de documentos relevantes B representa el conjunto de
37
EVALUACIOacuteN DE LOS SISTEMAS RI
documentos recuperados notA representa el conjunto de documentos no relevantes y notB
representa el conjunto de documentos no recuperados
RELEVANTES NO RELEVANTES
RECUPERADOS A cap B notA cap B B
NO RECUPERADOS A cap notB notA cap notB notB
A notA
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]
Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros
autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute
como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de
fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35
Precisioacuten |B|
|BA| cap
Exhaustividad |A|
|BA| cap
Tasa de Fallo |A|
|BA|notcapnot
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]
La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes
con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes
recuperados entre el total de documentos recuperados
La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes
recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy
difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero
no se podraacute afirmar esa cantidad con total seguridad
La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes
respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes
38
EVALUACIOacuteN DE LOS SISTEMAS RI
importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos
Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la
generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes
sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel
grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto
grado de generalidad tendraacute una mayoriacutea de documentos relevantes
Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola
precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece
en la siguiente expresioacuten
)G1(F)GE()GE(Pminus+sdot
sdot= (31)
en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo
Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad
asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse
en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje
Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de
[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente
relacionados
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]
39
EVALUACIOacuteN DE LOS SISTEMAS RI
Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean
medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los
usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a
un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la
necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la
cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute
considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si
que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se
buscaraacute una gran exhaustividad
322 Medidas orientadas al usuario
Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la
evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el
conjunto de documentos relevantes para una respuesta es siempre el mismo
independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la
realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son
relevantes y cuales no
Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de
que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la
relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y
[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los
antildeos setenta [Korfhage 1997] Se distinguen tres comunes
Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el
usuario ha recuperado
Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran
previamente desconocidos para el usuario
Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados
examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute
dispuesto a examinar
40
EVALUACIOacuteN DE LOS SISTEMAS RI
Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de
documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad
indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea
Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio
entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de
documentos examinados al intentar encontrar esos documentos relevantes Para ello se
parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y
el sistema permite al usuario localizar todosrdquo [Korfhage 1997]
323 Caacutelculo de la Exhaustividad y la Precisioacuten
Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se
presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute
una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que
enumeraremos a continuacioacuten
Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base
de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los
documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea
escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de
recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo
Otro procedimiento para calcular la exhaustividad consiste en asignar a varias
personas la tarea de analizar los documentos recuperados Este procedimiento resulta
complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el
usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios
de valor y lo que sea interesante para una puede no serlo para la otra
Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la
coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se
estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas
El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague
[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy
bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra
deberiacutea ser muy grande lo que complica el anaacutelisis
41
EVALUACIOacuteN DE LOS SISTEMAS RI
Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra
de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista
que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse
sin problemas a una base de datos global y por ello sugiere que puede hacerse
Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de
una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige
una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que
resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los
valores calculados para la exhaustividad y la precisioacuten son los siguientes
Relevante E P
d1 X 025 1
d2 X 05 1
d3 05 066
d4 X 075 075
d5 075 06
d6 075 05
d7 X 1 057
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos
Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben
realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un
uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un
documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el
total de documentos relevantes)
Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes
recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son
dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el
nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos
relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir
un graacutefico como el que se muestra en la figura 33
42
EVALUACIOacuteN DE LOS SISTEMAS RI
Pares de valores exhaustividad-precisioacuten
0
01
02
03
04
05
06
07
08
09
1
d1 d2 d3 d4 d5 d6 d7
Val
or
Exhaustividad Precisioacuten
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la
precisioacuten seguacuten Salton tomados de la tabla 36
Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja
claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la
coleccioacutenrdquo [Salton 1983]
Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de
una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten
corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial
de 1 hasta el de 066
324 Medidas promedio exhaustividad-precisioacuten
Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de
medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la
realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media
aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales
43
EVALUACIOacuteN DE LOS SISTEMAS RI
de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P
seraacute
sum= +
=N
1i ii
i
)NoRecRel(DRecRel(D)RecRel(D)
N1)D(dadExhaustivi (32)
sum= +
=N
1i ii
i
)RecNoRel(DRecRel(D)RecRel(D)
N1(D) Precisioacuten (33)
en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)
seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos
recuperados no relevantes siendo D el conjunto de documentos
A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores
diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez
de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la
figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de
valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten
como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como
aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la
relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica
buacutesqueda
Korfhage propone dos meacutetodos distintos para calcular el promedio de la
exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los
documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada
pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo
recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la
precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir
una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]
El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto
de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se
conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo
44
EVALUACIOacuteN DE LOS SISTEMAS RI
Graacutefico E-P
0
01
02
03
04
05
06
07
08
09
1
11
0 01 02 03 04 05 06 07 08 09 1 11 12
Exhaustividad
Prec
isioacute
n
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto
con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo
325 Valores sumarios simples
Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la
recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten
media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos
en estudio y segundo porque cuando comparamos dos algoritmos podemos estar
interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto
dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que
podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad
Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de
exhaustividad
3251 Precisioacuten media al observar documentos relevantes
Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden
de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada
aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir
observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media
45
EVALUACIOacuteN DE LOS SISTEMAS RI
seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que
recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto
valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor
pobre de exhaustividad global
3252 La R-Precisioacuten
La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos
ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo
R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si
consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden
entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10
documentos recuperados Esta medida puede utilizarse para observar el comportamiento
de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede
calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple
para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de
diversas consultas puede resultar impreciso
3253 Histogramas de Precisioacuten
Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la
historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el
valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i
respectivamente podemos definir la diferencia entre ambos valores como
RPAB(i) = RPA(i) - RPB(i) (34)
Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual
rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces
indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el
algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden
representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar
raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple
inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35
46
EVALUACIOacuteN DE LOS SISTEMAS RI
-15
-1
-05
0
05
1
15
1 2 3 4 5 6 7 8 9 10
Consultas
R-P
reci
sioacuten
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza
restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]
33 Otras medidas alternativas
Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la
seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas
ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en
funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las
medidas alternativas deberiacutean cumplir las siguientes condiciones
Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de
forma separada de otros criterios como el coste
Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos
recuperados no debe afectar a estas medidas
Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores
47
EVALUACIOacuteN DE LOS SISTEMAS RI
331 Exhaustividad y precisioacuten normalizadas
Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la
lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los
resultados al usuario formando una secuencia de documentos Incluso en sistemas que no
presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente
Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los
documentos siguientesrdquo [Korfhage 1997]
Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros
documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este
usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no
relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos
no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se
le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician
el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los
documentos al usuario
En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]
[Korfhage 1997]
Primero considera un sistema ideal donde los documentos relevantes se recuperan
antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la
exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe
que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido
devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se
muestra en la figura 36 siguiente
Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de
02 un documento relevante divido entre el total de cinco documentos relevantes de la
coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la
exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa
la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en
las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al
presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la
secuencia
48
EVALUACIOacuteN DE LOS SISTEMAS RI
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor
buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]
Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal
representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la
exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de
dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es
el nuacutemero total de documentos
Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el
resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda
ideal y la peor buacutesquedardquo [Rijsbergen 1979]
332 Ratio de deslizamiento
Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos
recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal
donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se
permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la
pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma
de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos
de los documentos que hubiera devuelto el sistema ideal
En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento
por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada
fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor
de uno
49
EVALUACIOacuteN DE LOS SISTEMAS RI
A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos
que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25
82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la
columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos
documentos habriacutean sido recuperados y presentados en el orden descendente de pesos
formando la columna ldquoΣ pesos idealesrdquo de dicha tabla
La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada
ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por
ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82
Ratio de Deslizamiento
N sum pesos reales sum pesos ideales Deslizamiento
1 70 82 085
2 120 152 079
3 120 204 059
4 145 254 057
5 227 299 076
6 272 336 081
7 309 367 084
8 320 392 082
9 372 403 092
10 403 403 1
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de
pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]
333 Medida de Voiskunskii
Este autor considera que los criterios para comparar los resultados de una buacutesqueda
ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda
y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el
establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]
Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko
I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos
medidas no cumplen totalmente los criterios comentados fundamentalmente porque se
50
EVALUACIOacuteN DE LOS SISTEMAS RI
infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra
cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a
conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants
Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de
los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con
los resultados siguientes
a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son
b Se recuperan 67 documentos siendo pertinentes 40 de ellos
c Se recupera un solo documento que resulta ser pertinente
Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores
para la medida I1
Buacutesqueda E P I1
a 05 05 1
b 04 0597 0997
c 001 1 101
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]
Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener
el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute
considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se
le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute
cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos
independientemente del valor matemaacutetico que nos devuelva la foacutermula
Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para
resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de
documentos relevantes recuperados y el nuacutemero de documentos que conforman el
resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del
producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta
medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39
51
EVALUACIOacuteN DE LOS SISTEMAS RI
En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto
para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la
mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior
En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir
en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo
Buacutesqueda E P I2
a 05 05 025
b 04 0597 02388
c 001 1 001
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]
34 Resumen
En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los
sistemas de Recuperacioacuten de Informacioacuten
Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante
un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten
con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos
resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito
Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten
Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas
RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la
precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de
documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la
precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el
tema
En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar
respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se
proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad
relativa
52
EVALUACIOacuteN DE LOS SISTEMAS RI
Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque
seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la
exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos
para calcular la exhaustividad como los manuales resultan complejos y costosos En otros
casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar
solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten
Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen
los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en
cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de
precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos
considerados
Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas
de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el
cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que
conforman el resultado
53
EVALUACIOacuteN DE LOS SISTEMAS RI
54
Capiacutetulo 4
PERFILES DE USUARIO
En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de
los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten
estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a
los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus
necesidades reales de informacioacuten
La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten
NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por
ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de
creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias
maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de
realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a
sus intereses y circunstancias
41 iquestQueacute es un Perfil
Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear
los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que
describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un
ordenador y puede utilizarse como representante del objeto en las tareas computacionales
Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten
la gestioacuten de conocimiento y el anaacutelisis de datos
Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del
comportamiento de un individuo hasta el perfil del funcionamiento de un programa de
ordenador En principio se puede hacer un perfil de todo y por consiguiente las
caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado
Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de
los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas
55
PERFILES DE USUARIO
especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos
antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes
El perfil de usuario va a contener informacioacuten modelada sobre el usuario
representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema
incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute
necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto
refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de
creacioacuten y gestioacuten de los perfiles de usuario
42 Meacutetodos de creacioacuten de perfiles
Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o
manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo
impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente
En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario
escribieacutendolos en su perfil de usuario o respondiendo a formularios
Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a
partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo
a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra
un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de
informacioacuten
Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se
modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de
Inteligencia Artificial para dichas tareas
Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente
para producir perfiles maacutes precisos y comprensibles
56
PERFILES DE USUARIO
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo
colaborativo de creacioacuten de perfiles Fuente [Rui 2003]
43 Meacutetodos de adquisicioacuten de los datos del usuario
En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de
datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten
activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de
adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos
para la clasificacioacuten del usuario
431 Informacioacuten Expliacutecita
La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el
propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener
mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas
iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo
1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el
usuario a un subgrupo de usuarios predefinido
57
PERFILES DE USUARIO
Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para
autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos
sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios
para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de
cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes
orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de
entretenimiento y pueden ofrecer incentivos para que el usuario las responda
Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta
los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea
inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta
paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo
inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que
responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa
de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo
[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]
432 Reglas de Adquisicioacuten
Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se
ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario
En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones
observadas del usuario o a una interpretacioacuten de su comportamiento
Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o
independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo
encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X
entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde
se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo
Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil
implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de
describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y
otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde
se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en
tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la
aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas
58
PERFILES DE USUARIO
variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que
seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten
especiacuteficas
433 Reconocimiento del Plan
Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan
realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una
base de conocimiento de tareas para modelar las posibles acciones del usuario y las
relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos
asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre
todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las
teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos
como en [Lesh 1995]
El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que
tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se
muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en
una aplicacioacuten de gestor de mensajes
434 Estereotipos
En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre
ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario
pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos
semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de
circunstancias [Rich 1979]
En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la
informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra
un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario
Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de
activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las
presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el
usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo
[Ambrosini et al 1997]
59
PERFILES DE USUARIO
Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al
1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro
importante que determina la efectividad de este meacutetodo va a ser la calidad de los
estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto
atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado
para cada estereotipo
435 Adquisicioacuten de Datos de Utilizacioacuten
En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo
para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que
registran las acciones del usuario para obtener informacioacuten de su comportamiento son
Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa
comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la
aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de
su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia
de navegacioacuten
Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales
[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes
aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que
los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las
acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el
comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y
para realizar automaacuteticamente acciones por el usuario
Tambieacuten se han construido perfiles de usuario orientados a su comportamiento
mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de
[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten
para modelar al usuario en sistemas educacionales
44 Representacioacuten del Perfil de Usuario
Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese
modelo el perfil de usuario para que pueda ser utilizado por otros componentes del
sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como
60
PERFILES DE USUARIO
pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los
contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten
los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales
Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y
las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de
razonamiento deductivo inductivo y analoacutegico
441 Razonamiento Deductivo
La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a
lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados
en la loacutegica y el razonamiento con incertidumbre
4411 Representacioacuten e Inferencia Loacutegica
El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra
bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo
lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas
sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del
tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del
concepto en la base de conocimiento del sistema
Para representar el conocimiento del sistema sobre el dominio y el conocimiento
del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de
conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de
proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la
incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a
meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten
de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]
4412 Representacioacuten y Razonamiento con Incertidumbre
Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden
utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo
es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas
61
PERFILES DE USUARIO
Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar
conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de
conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los
usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza
recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente
de ventas [Popp y Lodel 1996]
442 Razonamiento Inductivo Aprendizaje
En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se
monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales
basadas en las observaciones
En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier
tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten
afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica
especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten
personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar
filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario
partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de
mayor o menor intereacutes para el usuario basaacutendose en su perfil
Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En
Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico
para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de
documentos
En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario
se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las
palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas
adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic
1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones
claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los
perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que
represente a un documento cada peso podraacute expresar la importancia de la palabra en tal
documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la
importancia de la palabra para el usuario
62
PERFILES DE USUARIO
443 Razonamiento por Analogiacutea
El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios
En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de
usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo
de perfiles de usuario
4431 Filtrado Basado en Grupos
En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos
problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido
puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar
en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las
caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen
sistemas que buscan los usuarios que muestran un comportamiento interactivo similar
Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en
intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el
conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en
grupos [Alspector et al 1997]
Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula
las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las
clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se
utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker
y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus
marcadores de paacuteginas o ldquobookmarksrdquo
El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar
y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En
[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este
tipo
1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica
63
PERFILES DE USUARIO
4432 Agrupacioacuten de Perfiles de Usuario
Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute
considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de
usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios
El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos
utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un
algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes
formando perfiles de grupos de usuarios
[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de
aprendizaje para determinar el contenido de los estereotipos y para construir comunidades
de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45
[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se
corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo
una categoriacutea de noticias
El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende
expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los
documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del
usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su
perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho
perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las
caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema
realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que
considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el
usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no
visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores
45 Realimentacioacuten del usuario
Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una
secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario
comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten
La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La
realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema
64
PERFILES DE USUARIO
monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En
el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita
seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina
que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es
que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace
creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo
invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir
o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo
Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos
histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el
usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por
ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario
para ir confeccionando automaacuteticamente su perfil
Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al
usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con
respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten
que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra
parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable
puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no
es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en
dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en
ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede
suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener
modelos distintos uno del otro [Rui 2003]
Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la
realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten
positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa
puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute
auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa
Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de
utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se
requiera esfuerzo alguno por parte de eacuteste
65
PERFILES DE USUARIO
46 Agentes Software y creacioacuten de perfiles
Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en
entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese
entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo
Los agentes se han utilizado ampliamente en distintos campos comerciales
industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de
forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y
presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la
colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos
agentes se basaraacuten en alguacuten modo de conocimiento del usuario
Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software
convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su
ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten
capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no
impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un
sistema
La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute
principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes
que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes
podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de
inteligencia artificial
Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]
Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de
alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan
siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para
la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso
asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica
en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona
las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario
que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del
usuario y actualizar entonces su perfil
66
PERFILES DE USUARIO
47 Modelos Estadiacutesticos
Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis
estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute
paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten
para elaborar su perfil correspondiente
Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil
para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de
eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil
de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en
paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el
comportamiento en accesos del usuario y un grafo de accesos a la Web donde se
mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que
serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de
usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de
buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario
obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el
contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un
conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas
para evaluar el intereacutes de una paacutegina para un usuario
Las presunciones empiacutericas consideradas en [Chan 1999] son
1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor
intereacutes
2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes
3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso
indicaraacute que las paacuteginas son de intereacutes
4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa
paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa
paacutegina
En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio
de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de
enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina
puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones
67
PERFILES DE USUARIO
se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo
superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten
Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado
CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para
construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de
usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que
eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un
servidor web denominado JobFinder donde se graban los registros de actividad de los
usuarios
48 Razonamiento Basado en Reglas
Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas
pasados efectuando asociaciones a lo largo de relaciones generales para encontrar
soluciones al problema presente
Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose
en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio
existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario
se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos
partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y
la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema
dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino
basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de
usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos
enlaces que de otra manera estariacutean presentes en la paacutegina
El principal problema de estos sistemas seraacute la dificultad para describir y definir las
reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil
de usuario automaacutetico
Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas
que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo
68
PERFILES DE USUARIO
sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten
por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente
sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su
objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces
ordenados de mayor a menor puntuacioacuten seguacuten su perfil
Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo
utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por
el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir
elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web
recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su
frecuencia
Se distinguen dos aspectos de las preferencias del usuario las preferencias
persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de
usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones
En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario
se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar
procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se
representaraacute mediante un vector que se construye considerando ambos tipos de
preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para
calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea
anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la
foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1
Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos
teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o
de la frecuencia del teacutermino
La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia
del coseno entre ambos
wPwPw)sim(P rrr
sdotsdot
=r
(41)
De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo
con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de
similitud
69
PERFILES DE USUARIO
410 Resumen
En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos
para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten
de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se
incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros
casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones
adquiriendo sus datos de utilizacioacuten
Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una
representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del
sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e
inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos
numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o
aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el
aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios
En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los
documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen
dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el
meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario
Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos
permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza
el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten
expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e
implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en
proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten
Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes
software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda
y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma
automaacutetica recurriendo a teacutecnicas de inteligencia artificial
Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos
anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque
analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar
soluciones al problema presente sistemas de razonamiento basado en reglas
70
PERFILES DE USUARIO
Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite
realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico
elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo
vectorial y valores de similitud basados en la medida del coseno para clasificar los
resultados de una buacutesqueda
71
PERFILES DE USUARIO
72
Capiacutetulo 5
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE
CONTENIDOS BASADO EN PERFILES
En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su
evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y
diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario
En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone
un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un
perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al
usuario seguacuten su puntuacioacuten
El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten
en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario
utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del
perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute
coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]
Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto
aplicaacutendolo a la elaboracioacuten de un agregador inteligente
51 Introduccioacuten
El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un
mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten
la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado
automaacuteticamente
Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir
su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten
que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute
compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de
dicho contenido
73
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten
seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten
disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de
las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del
sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden
darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva
informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada
uacutenicamente por el inicio y fin de la ejecucioacuten del sistema
En la figura 51 se muestra una visioacuten general de este sistema propuesto donde
puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y
que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma
de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario
Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de
retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil
Usuario
Visualizar y seleccionar noticias
World Wide Web
Perfil de Usuario
Agregador de noticias
Puntuar la informacioacuten recuperada
Actualizar perfil
Proporcionar noticias relevantes
Seleccioacuten de noticias
Figura 51 Vista general del sistema NectaRSS propuesto
52 Construccioacuten automaacutetica de un perfil de usuario basado en su
historia de navegacioacuten
En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras
palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o
evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su
historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo
74
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas
sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se
recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa
informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten
Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar
diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo
de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen
por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el
perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las
preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario
construido con la historia de navegacioacuten por titulares durante S sesiones
Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis
Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el
usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En
primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como
sigue
(51) )ww(ww ht
ht
ht
hm21
=
donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino
Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define
como sigue
ht k
w
sum =
= m
1s sh
khht
tftf
wk
(52)
donde tfhk es la frecuencia del teacutermino tk en cada titular h
Entonces definimos a Ps como
(53) )psps(psPs21 ttts =
75
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la
sesioacuten j y tk denota cada teacutermino
Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps
sum=
=j
kk
S
1h
ht
jt w
S1ps (54)
Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente
seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la
ecuacioacuten (54) ktps
El perfil de usuario P se denotaraacute tambieacuten mediante un vector
(55) )pp(pPn21 ttt=
donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino
Cada elemento se define kt
p
sum sum= =
=T
1j
S
1h
ht
jt
j
kkw
S1p (56)
siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento
Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al
teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j
Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguientes expresiones
76
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Pj+1 = a Pj + b Psj para forall sub Psj (57) kt
p
Pj+1= Pj para forall nsub Psj (58) kt
p
donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual
se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a
Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como
se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras
cada sesioacuten
hllog2
tt ep)fol(pkk
minussdot= (59)
donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]
En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea
determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula
(510) siguiente
ktp
ktp
Pj+1 = fol( Pj) para forall nsub Psj (510) kt
p
521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten
del perfil de usuario
Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute
presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la
posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica
del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten
asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al
funcionamiento del sistema propuesto
Utilizando el modelo vectorial en este caso para los titulares que posean un
resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los
77
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a
partir de los teacuterminos que aparezcan en el resumen asociado
Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen
asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr
con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar
denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)
como sigue
(511) )ww(ww hrt
hrt
hrt
hrv21
=
donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk
denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento
de whr se define como sigue hrtk
w
sum =
= v
1s shr
khrhrt
tftf
wk
(512)
donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h
Entonces definimos a Pr como
(513) )prpr(prPv21 tttr =
y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr
sum=
=j
kk
Sr
1h
hrt
jt w
Sr1pr (514)
78
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj
seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se
muestra en la ecuacioacuten (514) kt
pr
Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias
en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior
Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguiente foacutermula
Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt
p
donde a y b son constantes que satisfacen a + b = 1
53 Caacutelculo de la puntuacioacuten de los titulares
Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente
vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el
titular h y tk denota cada teacutermino con el perfil de usuario donde n es el
nuacutemero de teacuterminos distintos y tk denota cada teacutermino
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular
h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la
seccioacuten 221 de esta tesis y propuesta por [Salton 1989]
hw
h
hh
wPwP)wsim(Psdotsdot
= =sum sumsum= =
=
sdot
sdotm
1k2m
1kht
2t
m
1khtt
kk
kk
(w(p
wp
)) (516)
El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para
cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya
puntuacioacuten sea mayor
79
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular
con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez
se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de
olvido
Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes
apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo
Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo
t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo
Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute
wh= ( = 033 = 033 = 033) 1t
ps 2tps3t
ps
Ahora suponemos que se tienen los siguientes valores en el perfil de usuario
correspondientes a los teacuterminos del titular h
P= ( = 003 = 001 = 009) 1t
p2t
p3tp
La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la
medida del coseno (516) se calcularaacute de la siguiente manera
)wsim(P h =)()(
)()()(222222 090010030330330330
090330010330030330++sdot++
sdot+sdot+sdot = 079
Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil
de usuario P en este ejemplo es de 079
80
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
531 Puntuacioacuten alternativa de los titulares
Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la
medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por
[Salton 1989]
Asiacute dado el correspondiente vector caracteriacutestica del titular h
donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario
donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino
entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del
titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
hw
=)wsim(P h
sum sumsumsum
= ==
=
sdotminussdot
sdotm
1k
m
1khtt
2m
1kht
2t
m
1khtt
kkkk
kk
wp)(w)(p
wp (517)
El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar
para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten
54 Descripcioacuten general del sistema NectaRSS
Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52
y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone
un sistema de recomendacioacuten de noticias recuperadas de la Web
Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador
inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2
De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores
tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo
implementa puede encontrarse en el Anexo II
1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I
81
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de
usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia
Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten
El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella
informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin
esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando
entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute
confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada
sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten
(55) mediante la foacutermula (57)
Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula
(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten
El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la
seccioacuten 53 utilizando la foacutermula (516)
Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que
aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula
(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps
como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten
(513)
541 Caracteriacutesticas singulares del sistema
NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental
del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten
dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin
embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va
elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la
informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin
distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de
usuario resulta maacutes sencillo
Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la
informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia
reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)
82
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten
2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al
comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las
similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para
conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias
a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente
Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias
utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda
informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada
seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente
ninguna aplicacioacuten similar con estas funciones
55 Resumen
En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten
de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a
los usuarios en la tarea de encontrar la informacioacuten que demandan
NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de
usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal
usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el
sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada
Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea
un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar
cada sesioacuten con el sistema
Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para
ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten
Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada
titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino
Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su
correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del
coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton
1989]
83
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
84
Capiacutetulo 6
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA
PROPUESTO
En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar
experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza
exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea
seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha
experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para
determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el
sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las
palabras y se describen los experimentos efectuados
En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del
sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la
Correlacioacuten entre titulares y la R-Precisioacuten
61 Objetivo general del sistema y esquema de su experimentacioacuten
El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el
filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base
a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones
satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y
faacutecilmente la informacioacuten que demande
Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas
1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus
elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de
informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5
2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64
de este capiacutetulo incluyendo
85
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de
puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas
informativas del sistema
minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para
cada sesioacuten con el sistema
3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el
funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos
en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten
632 Los resultados de estos experimentos y los paraacutemetros seleccionados se
expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente
4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a
las distintas medidas calculadas y prueba de un sistema alternativo de
puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los
experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos
resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente
62 Metodologiacutea seguida
Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se
procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio
formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de
noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo
II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes
La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin
embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes
En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en
una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar
usuarios para su prueba
86
RESULTADOS DE LOS EXPERIMENTOS
Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y
se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en
formato XML1 para su posterior anaacutelisis
El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de
treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica
Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa
fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido
como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello
que todos los valores que se ofrecen como resultado de los experimentos han sido
suficientemente contrastados por este meacutetodo
Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la
base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten
asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo
selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61
ltSESIOacuteNgt
ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt
ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt
ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt
ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt
ltTitular_sesioacutengt
ltTiacutetulogtMadrid 2012ltTiacutetulogt
ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt
ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt
ltFechagt2005-05-17T091249+0100ltFechagt
ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt
ltOrden_eleccioacutengt2ltOrden_eleccioacutengt
ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt
ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt
ltErrorgt06355515025975752ltErrorgt
ltTitular_sesioacutengt
ltSESIOacuteNgt
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La
ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden
en que el usuario lo ha elegido
1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas
87
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Antes de las sesiones de prueba en cada uno de los casos considerados en los
distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin
de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan
los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener
conclusiones
63 Estrategias de experimentacioacuten
Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la
primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para
comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los
resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil
de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones
Estas fases se describen maacutes detalladamente a continuacioacuten
Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute
se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos
titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el
intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas
proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)
Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada
experimento se compararaacuten los resultados para comprobar si existen variaciones
significativas y cuaacutel valor de entre los experimentados arroja mejores resultados
En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en
las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el
sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus
correspondientes preferencias temaacuteticas como cualquier otro usuario real Una
descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en
la seccioacuten 632
Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros
determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos
usuarios reales contrastando los resultados para determinar su validez En esta fase
se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste
iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que
permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar
88
RESULTADOS DE LOS EXPERIMENTOS
desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el
sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten
se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes
detallada de los usuarios experimentales y de los experimentos correspondientes a
esta fase se encuentra en la seccioacuten 632
631 Tratamiento de las palabras
Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se
analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la
descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una
a una todas las palabras
En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o
es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar
de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso
muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]
y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a
minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es
una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o
modificando sus valores de perfil si ya estaacute contenida
El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su
inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten
se podraacute forzar al sistema para que excluya las palabras que se deseen
Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del
analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten
comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado
por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por
52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la
herramienta ispell [DATSI 2005]
2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm
89
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
632 Descripcioacuten de los experimentos
A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema
Los cuatro primeros se corresponden con la primera fase destinada a probar diversos
paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento
del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el
uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas
distintas de puntuar la informacioacuten
Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada
sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el
Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea
diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea
Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la
seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el
primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto
de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de
los mismos titulares de noticias
Experimento 1 Con Resumen ndash Sin resumen (CRS)
En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la
consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de
usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee (ESIN)
Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)
Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se
probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados
obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores
experimentados resulta maacutes beneficioso para el sistema Para este experimento el
90
RESULTADOS DE LOS EXPERIMENTOS
sistema estaraacute configurado con la mejor de las dos estrategias descritas en el
experimento CRS anterior
Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y
33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal
y como puede observarse en la figura 62
Representacioacuten del factor de olvido para distintos valores del intervalo de vida
07
075
08
085
09
095
1
105
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Intervalo de vida hl
Valo
r
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo
de vida hl
Experimento 3 Importancia Relativa de los Perfiles (IRP)
En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al
finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el
perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con
distintas importancias relativas para dichos perfiles modificando sus paraacutemetros
multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del
experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones
consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema
Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)
(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y
(a=90 b=10) abarcando uniformemente el intervalo [0 100]
91
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)
Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento
del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar
el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS
pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con
ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento
Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)
Considerando los resultados obtenidos en los cuatro experimentos anteriores se
configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten
de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios
reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en
cada una de las sesiones Al final del experimento se compararaacuten los resultados que se
hayan obtenido para cada uno de ellos para determinar si el sistema posee un
funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema
para que presente al usuario una lista aleatoria de titulares de entre los recuperados en
cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-
experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute
ldquoAZARrdquo
En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14
titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar
simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento
vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la
lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de
entre los recuperados en la sesioacuten
Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales
debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por
el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes
92
RESULTADOS DE LOS EXPERIMENTOS
proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar
estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los
titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera
sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos
los titulares recuperados
Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones
baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada
experimento
USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5
Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en
el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto
como medida alternativa en la seccioacuten 531 del capiacutetulo anterior
En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las
empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la
informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos
casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados
por puntuacioacuten para que escoja los que sean de su intereacutes
93
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
64 Medidas para la evaluacioacuten experimental del sistema
En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del
sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las
preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por
el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento
determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su
funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores
recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la
informacioacuten que maacutes le interesa
641 Tasas formadas por relaciones entre las variables observables
Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario
almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute
en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de
intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas
medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el
sistema
Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en
una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en
dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor
que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares
con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la
figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos
conjuntos como variables dependientes del sistema
El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de
las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas
para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para
ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el
apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares
que se le ofrecen al usuario o card(T)
En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los
que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el
94
RESULTADOS DE LOS EXPERIMENTOS
perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares
destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario
seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))
titulares T
titulares elegidos E(T)
titulares elegidos
destacados E(T) cap D(T)
titulares destacados D(T)
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la
seccioacuten 641
En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por
tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra
variable a considerar siendo su valor el de card(E(T))
Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir
un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal
cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se
corresponderaacute con card(E(T) cap D(T))
Si relacionamos entre si estas variables podremos definir varias tasas de valor simple
que nos ayuden a evaluar el sistema
Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten
respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como
95
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
T)T(EC P = (61)
Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la
sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares
Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada
mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como
T)T(DCR = (62)
Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de
titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al
total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones
iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del
usuario
Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con
puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT
definida como
T
)T(D)T(ECTcap
= (63)
Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con
puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los
titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede
con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa
En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los
conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del
funcionamiento del sistema
96
RESULTADOS DE LOS EXPERIMENTOS
titulares elegidos titulares
destacados
titulares elegidos
destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila
642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima
Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una
puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas
(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares
se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones
eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el
sistema
En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares
ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible
calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares
escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo
que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los
N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten
determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos
por el usuario y el valor )T(p maacuteximo se define la tasa CD como
)T(p))T(E(pC
maxD = (66)
en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados
a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al
nuacutemero de titulares escogidos por el usuario
97
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error
Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en
[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el
conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de
noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten
asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de
titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto
error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi
siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las
dos medidas siguientes
Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del
sistema Se calcularaacute seguacuten la foacutermula
N
eE
N
iisum
== 1 (67)
Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento
del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el
algoritmo Se definiraacute como
( )N
EEN
isum=
minus= 1
2
σ (68)
644 La Correlacioacuten entre titulares
En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a
ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera
anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los
titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al
seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un
subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN
representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la
siguiente medida
98
RESULTADOS DE LOS EXPERIMENTOS
Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los
titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente
escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto
mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute
el algoritmo [Hill 1995] Se definiraacute
[ ]
fc
N
iii ffcc
Nr σσ sdot
minussdotminussum= =1
)()(1
(69)
en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la
expresioacuten representa la covarianza
645 La R-Precisioacuten
Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se
generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de
puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para
ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de
titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario
entre los ofrecidos por el sistema
Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis
primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para
el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el
comportamiento del algoritmo para cada sesioacuten i del experimento
El valor de la R-Precisioacuten podraacute definirse en este caso como
))T(E(card))T(E(posR)i(RP
i
i= (610)
en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros
titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al
nuacutemero total de titulares elegidos en dicha sesioacuten
99
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
65 Resumen
Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para
verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la
presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este
sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del
sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que
realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten
Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en
el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se
seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se
realizaron diversos experimentos analizando al final de cada uno de ellos los resultados
obtenidos para valorar el funcionamiento del sistema propuesto
En la experimentacioacuten se distinguen dos fases principales la primera destinada a
determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar
el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los
cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el
comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el
mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la
informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento
adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando
las palabras vaciacuteas y contabilizando las que se vayan considerando
Despueacutes de describir los experimentos se proponen diversas tasas y medidas para
cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de
titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras
relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su
similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error
Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es
la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el
comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6
mediante un valor simple
100
Capiacutetulo 7
RESULTADOS DE LOS EXPERIMENTOS
En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten
632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos
obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que
se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto
comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las
medidas que evaluacutean su funcionamiento
En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el
experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes
opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se
presentan los resultados del experimento DIV en el que se prueba el uso de un factor de
olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el
experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil
acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS
pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos
En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU
analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el
experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten
mediante la medida del coseno y mediante la medida de Jaccard
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)
Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del
sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para
la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras
se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y
los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN
101
RESULTADOS DE LOS EXPERIMENTOS
Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y
que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que
se basa en el valor de puntuacioacuten que el sistema asigna a los titulares
Para comparar los resultados de ambos sub-experimentos en la tabla 72 se
muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones
experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten
estaacutendar en los graacuteficos de las figuras 71 72 y 73
titulares elegidos titulares destacados
titulares elegidos destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
considerados La relacioacuten se establece dividiendo la columna por la fila
Experimento CRS ndash Valores medios de las tasas calculadas Caso
CP CR CT CD
ECON 02312 06292 01572 05646
ESIN 02312 04248 01269 05192
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30
sesiones experimentales
En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos
casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares
por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba
que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la
figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a
los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no
se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en
el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el
perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con
alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras
del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en
el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72
102
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
09Va
lor
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1
000
005
010
015
020
025
Valo
r
ECON ESIN
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
103
RESULTADOS DE LOS EXPERIMENTOS
Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso
ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las
anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten
media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media
maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y
como se define en la foacutermula (64)
Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
Valo
r
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza
los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor
medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor
Para comprobar si existen diferencias significativas entre los dos tratamientos del
perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos
obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba
estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su
normalidad condicioacuten indispensable para aplicar el test de Student
Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de
00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera
104
RESULTADOS DE LOS EXPERIMENTOS
muy significativo Por lo tanto se considera que si existen diferencias significativas entre el
caso ECON y el caso ESIN seguacuten la tasa CD
Paraacutemetros ECON ESIN
Media 05646 05192
Muestra 30 30
Desviacioacuten Estaacutendar 01740 01934
P del test de Normalidad 00572 gt010
Test t-Student (2 colas) 00025
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN
destacando el valor de la prueba t -Student para la tasa CD
Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la
praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados
hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos
titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con
mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender
directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el
sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y
CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no
ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan
al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede
esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de
significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea
de intereacutes
En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de
titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las
noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema
a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una
noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto
que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil
105
RESULTADOS DE LOS EXPERIMENTOS
Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento
del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras
del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente
sus resultados
Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el
perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias
estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor
cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la
mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de
titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a
su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que
cero
Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON
respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el
funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean
diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor
estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las
noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su
historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes
experimentos
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)
En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido
foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron
30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y
33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como
puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el
sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol
Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas
consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que
en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de
hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del
experimento 1 anterior
106
RESULTADOS DE LOS EXPERIMENTOS
Los valores medios obtenidos para la tasa CD en los distintos casos considerados
despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la
figura 74 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 2 ndash Valor medio de la tasa CD
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol
04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones
experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido
SINfol
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02
03
04
05
06
07
08
Valo
r
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida
hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan
valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol
Se observa que los resultados obtenidos por la tasa CD para los distintos valores del
intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha
calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la
obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para
107
RESULTADOS DE LOS EXPERIMENTOS
comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series
de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada
uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para
aplicar la prueba t- Student
Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de
06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera
no significativo Por lo tanto se considera que no existen diferencias significativas entre la
consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten
de tal factor de olvido seguacuten la tasa CD
Paraacutemetros Factor de olvido
con hl=7
Sin factor de
olvido
Media 05681 05652
Muestra 30 30
Desviacioacuten Estaacutendar 01500 01387
P del test de Normalidad gt010 gt010
Test t-Student (2 colas) 06292
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con
intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la
prueba t -Student para la tasa CD
Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de
diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido
con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema
pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten
se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es
por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el
proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute
durante los siguientes experimentos
108
RESULTADOS DE LOS EXPERIMENTOS
73 Experimento 3 Importancia Relativa de los Perfiles (IRP)
Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el
rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil
de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)
Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro
a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil
elaborado por la sesioacuten en curso
Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros
durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)
(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)
Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la
tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea
de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de
titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el
tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los
distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la
tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)
(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)
06186 06240 06283 06306 06319 06315 06286 06223 06123
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones
experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b
En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los
casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)
La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene
ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario
despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media
para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten
auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si
existen diferencias significativas entre las distintas series de valores
109
RESULTADOS DE LOS EXPERIMENTOS
Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos
paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten
Ps y el perfil acumulado P tal y como se define en la foacutermula (515)
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP
(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040
045
050
055
060
065
070
075
080
Valo
r
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de
usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par
(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)
Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta
al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la
elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el
experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las
diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados
Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten
los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten
50 para los paraacutemetros a y b de la foacutermula (515)
Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones
experimentales con el sistema considerando el caso que denotaremos por ECON2
110
RESULTADOS DE LOS EXPERIMENTOS
cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se
utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se
muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha
observado en el experimento 1
A diferencia de los experimentos anteriores donde se obtuvieron valores medios en
este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones
para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados
obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados
middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y
ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos
cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten
Experimento 4 - Resultados para la tasa CD
Lineal (ECON2) y = 00004x + 06538
Lineal (ESIN2) y = -00027x + 06788
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los
resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de
tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable
Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes
a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la
serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la
111
RESULTADOS DE LOS EXPERIMENTOS
pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo
largo de las sesiones para este segundo caso
Estos resultados nos confirman las conclusiones obtenidas para el experimento 1
donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las
noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos
de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada
sesioacuten con el sistema
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)
En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes
usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los
resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su
adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos
usuarios
Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se
configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que
presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por
puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos
titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar
desplazamiento vertical alguno
Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30
sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el
sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el
perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del
capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras
30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes
entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-
experimento al no existir perfil de usuario alguno se ofrecen todos los titulares
Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen
en las tablas y graacuteficos de las secciones siguientes
112
RESULTADOS DE LOS EXPERIMENTOS
751 Comparacioacuten de Tasas
En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la
sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se
representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas
en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se
representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN
a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de
titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en
el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la
sesioacuten
La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el
caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como
destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute
los mismos resultados que la tasa CT para el caso ldquoORDENrdquo
Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357
CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071
CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927
CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en
los casos ldquoORDENrdquo y ldquoAZARrdquo
Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267
CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062
CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845
CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones
experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo
113
RESULTADOS DE LOS EXPERIMENTOS
Observando el graacutefico de la figura 77 donde se representan los valores obtenidos
por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78
donde se representan los valores medios calculados para dicha tasa en las 30 sesiones
experimentales vemos que para todos los usuarios se han obtenido mayores valores para el
caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso
ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso
ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir
mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el
intereacutes del usuario
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de
0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo
Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30
sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo
Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el
caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Observando el graacutefico de la figura 79 donde se representan los valores obtenidos
por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710
donde se representan los valores medios calculados para dicha tasa vemos que para todos
los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los
titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al
azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el
usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor
cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados
seguacuten el intereacutes del usuario
114
RESULTADOS DE LOS EXPERIMENTOS
Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios
Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios
21 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
USUARIOS
Valo
r
ORDEN AZAR
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
115
RESULTADOS DE LOS EXPERIMENTOS
A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los
titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los
titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el
usuario escogiese todos los titulares recomendados por el sistema De esta manera se
obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos
de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de
0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos
los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376
en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un
220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios
116
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
12
USUARIOS
Valo
r
ORDEN AZAR
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
752 Error Absoluto Medio y Coeficiente de Correlacioacuten
En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se
presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso
ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes
medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y
porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece
En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten
experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula
(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se
representan estos resultados
En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten
experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en
la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente
117
RESULTADOS DE LOS EXPERIMENTOS
Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051
σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019
r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten
entre titulares en la sesioacuten experimental 30 por 15 usuarios
Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000
005
010
015
020
025
030
035
USUARIOS
Valo
r
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y
la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior
a 015 y una Desviacioacuten Estaacutendar media inferior a 005
Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios
experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025
obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2
11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos
los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios
118
RESULTADOS DE LOS EXPERIMENTOS
es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la
conclusioacuten anterior
Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten
entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios
En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten
entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los
usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente
un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares
propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten
753 La R-Precisioacuten
Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute
al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el
caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder
calcular entonces la precisioacuten en la posicioacuten R del orden
119
RESULTADOS DE LOS EXPERIMENTOS
La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten
del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones
experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los
titulares ordenados al usuario
En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los
15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan
en la figura 713
Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
01
02
03
04
05
06
07
08
09
10
USUARIOS
Valo
r
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el
sistema La media mayor es la del usuario 11 y la menor es la del usuario 8
En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten
para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que
maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]
120
RESULTADOS DE LOS EXPERIMENTOS
del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario
ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de
0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para
la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten
media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo
Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la
R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones
experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones
experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media
para esta medida el 11
En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos
por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia
de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se
calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la
pendiente y b es la interseccioacuten
Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios
y = 00058x + 03154
y = 00132x + 05664
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30
sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una
evolucioacuten favorable de la R-Precisioacuten
121
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de
la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de
tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en
ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo
para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de
titulares
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en el
experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como
medida alternativa en la seccioacuten 531 del capiacutetulo 5
En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas
noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno
para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el
usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan
en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De
esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de
resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante
la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el
mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten
Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP
CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no
resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna
manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en
ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares
similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo
Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados
sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la
sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo
la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la
puntuacioacuten media ideal que en el caso ldquoCOSrdquo
122
RESULTADOS DE LOS EXPERIMENTOS
Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los
valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica
que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo
En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r
en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la
figura 715 se representan graacuteficamente estos datos
Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias
caso r r
COS 0989 0964
JAC 0989 0936
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30
junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo
Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC
COS media COS JAC media JAC06
07
08
09
10
11
Valo
r
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de
Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y
ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo
123
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la
sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y
ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso
ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la
Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien
puntuados por el sistema
Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones
en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento
al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de
Jaccard
En general se puede concluir que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la
calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste
experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no
de una palabra en dicho perfil de usuario
77 Resumen
En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en
los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema
propuesto y su eficacia con diversos usuarios
El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema
considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con
nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de
los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos
versiones configuradas del sistema una considerando los resuacutemenes y otra sin
considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en
concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas
mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD
que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el
objeto de determinar que efectivamente existen diferencias significativas entre las dos
alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten
de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se
mantendraacute para el resto de experimentos
124
RESULTADOS DE LOS EXPERIMENTOS
En el segundo experimento (DIV) se probaron diversos valores para el intervalo de
vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En
este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas
propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse
exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados
del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece
significativamente al sistema por lo que finalmente se desestimoacute su uso
El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores
proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten
seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los
resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes
similitudes en el comportamiento de los pares considerados experimentalmente se observoacute
la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media
aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado
El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas
en el primer experimento (CRS) pero en este caso considerando los valores que se han
determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En
este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para
los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables
cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil
de usuario confirmando por tanto las conclusiones del primer experimento
El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con
diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo
realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales
Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la
misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes
necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de
titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario
correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el
sistema configurado para que ofreciera los titulares aleatoriamente al usuario
Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten
las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de
titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la
125
RESULTADOS DE LOS EXPERIMENTOS
Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen
funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la
puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge
cada usuario
Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten
obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se
analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los
usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos
una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un
comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente
mejores ordenaciones de titulares
Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida
distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida
del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores
medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos
medidas concluyendo por tanto que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten elegido
126
Capiacutetulo 8
CONCLUSIONES
En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo
para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de
fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus
preferencias
En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de
informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos
Posteriormente se describieron los aspectos a tener en cuenta para definir y crear
perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de
usuario y las teacutecnicas de inferencia asociadas
El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la
bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer
un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un
agregador inteligente que recomienda contenidos al usuario denominado NectaRSS
Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf
descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de
titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la
medida de Jaccard
Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y
se comproboacute su validez
Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de
investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS
127
CONCLUSIONES
81 Principales Aportaciones y Conclusiones
Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten
Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de
recomendar eacutesta a un usuario seguacuten sus preferencias
Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y
confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial
de seleccioacuten de la informacioacuten ofrecida
Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para
dar la informacioacuten maacutes relevante
Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se
realizan de manera totalmente transparente al usuario
Se han evaluado diferentes estrategias y opciones para que el resultado del sistema
sea oacuteptimo
Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para
distintos usuarios heterogeacuteneos
Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las
ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para
eacuteste que un orden aleatorio
Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se
aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente
128
CONCLUSIONES
elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los
titulares desde el punto de vista del usuario
El sistema demuestra un funcionamiento adecuado para distintos usuarios
El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la
informacioacuten elegido
El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a
sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica
puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que
realmente le interesa sin tener que realizar ninguna otra accioacuten adicional
82 Liacuteneas de investigacioacuten futuras
El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de
investigacioacuten originales que se considera de intereacutes abordar
Determinar el rendimiento del sistema considerando conjuntos de palabras
encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario
Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos
que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en
la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario
Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la
suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario
Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se
mantenga un perfil para cada usuario que visite la paacutegina de los titulares de
129
CONCLUSIONES
informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la
proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de
especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo
Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten
del perfil de usuario
Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses
Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la
informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen
distintos usuarios con perfiles similares
Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a
las que el usuario haya preseleccionado
130
Bibliografiacutea y Referencias
[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive
interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 22-32
[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a
Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso
(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia
Italy Wien SpringerWienNewYork 365-376
[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and
clique-based user models for movie selection a comparative study User Modeling and User Adapted
Interaction 7(4) 279-304
[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture
for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 59-61
[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable
system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159
[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and
Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998
[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press
Addison-Wesley 1999
[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In
Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey
USA 378-385
131
BIBLIOGRAFIacuteA Y REFERENCIAS
[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated
real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 215-226
[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan
recognition User Modeling and User Adapted Interaction 5(3-4) 317-348
[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989
[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier
Science Publishers 1990
[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext
reading system User Modeling and User Adapted Interaction 4(1) 1-19
[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user
modeling systems International Journal of Human-Computer Studies 40 31-62
[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible
Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004
httpwwww3orgTR2004REC-xml11-20040204
[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of
predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on
Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52
[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM
Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT
Press
[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation
Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean
VA Nov 2000 pp 227-234
httpwwwittckueduobiwan
132
BIBLIOGRAFIacuteA Y REFERENCIAS
[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles
Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer
Science Florida Institute of Technology Melbourne Australia
httpciteseeristpsueduchan99noninvasivehtml
[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W
Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989
[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London
Library Association 1999
[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the
Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project
Cranfield (1966)
[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the
American Society for Information Science v 24 March-April 1973 p87-92
[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing
interests International Journal on Digital Libraries 2 (1) 38-53
[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing
amp Management 23 4 1987 p 249-254
[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos
(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes
[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW
The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994
httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml
[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML
Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas
Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre
de 1998
133
BIBLIOGRAFIacuteA Y REFERENCIAS
[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW
Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998
[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW
Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001
httpservidortiuibesadelaidaCIVEadecivehtm
[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval
Journal of the American Society for Information Science 51 (7) 2000 p 614-624
[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005
httpwwwfeedstercom
[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-
site management system SIGMOD Record 26(3) 4-11 1997
[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information
provision for all users including disabled and elderly people The New Review of Hypermedia and
Multimedia 4 163-188
[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego
Academic Press cop1997 XIV 365 p
[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de
Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos
Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12
Nov de 2002
[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-
Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal
In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies
Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer
Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56
134
BIBLIOGRAFIacuteA Y REFERENCIAS
[Goo 2005] Google Directory RSS News Readers Julio de 2005
httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science
Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers
[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and
heuristics Boston Kluwer Academia Publishers 1998
[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S
The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference
Brisbane Australia 1998
[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic
Publishers 1994
[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system
for supporting information providers in directing users through hyperspace Proceedings of the 3rd on
Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and
Hypermedia 147-156
[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices
in a virtual community of use In Proceedings of CHI 95 Denver CO 1995
[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a
declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-
Oriented Database (DOOD) pages 386-398 Singapore 1997
[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search
engines to query AI Magazine 18(2) 19-25 1997
[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999
httpwwww3orgTRhtml401
135
BIBLIOGRAFIacuteA Y REFERENCIAS
[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an
overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251
1996
[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web
Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th
international conference on World Wide Web 2004
[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext
client of the user modeling system BGP-MS Proceedings of the 4th International Conference on
User Modeling 99-105
[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell
system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106
[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl
J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM
40(3) 77-87
[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley
Computer Publisher 1997
[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface
integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support
ergonomic design of manually and automatically adaptable software Lawrence Erlbaum
97-125
[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW
Conference Santa Clara CA USA 1997
[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington
Virginia Information Resources 1993
[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995
136
BIBLIOGRAFIacuteA Y REFERENCIAS
[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the
14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-
1710
[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer
collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International
Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf
[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of
the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-
929
[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis
Doctoral Universitat Jaume I Castelloacuten 2002
[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva
perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la
Informacioacuten (JOTRI) 2002
[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the
ACM 37 (7) 31- 40
[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86
[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press
1993
[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la
evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de
Documentacioacuten Nordm 7 pp 153-170 2004
[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten
de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten
II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004
137
BIBLIOGRAFIacuteA Y REFERENCIAS
[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user
preferences ontologies in recommender systems In Proceedings of the 1st International Conference
on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001
[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based
inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-
282
[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D
1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91
[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive
information access to scholarly publications on the Web Artificial Intelligence Laboratory
Department of Mathematics and Computer Science 2002
[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL
Development Officer Heriot-Watt University Edinburgh UK 2003
[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering
and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996
[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel
httpwwwuninechinfoclef
[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World
Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997
[OBIWAN 1999] OBIWAN Project University of Kansas 1999
httpwwwittckueduobiwan
[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system
User Modeling and User Adapted Interaction 4 (2) 107-130
[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User
Modeling and User Adapted Interaction 4 (3) 197-226
138
BIBLIOGRAFIacuteA Y REFERENCIAS
[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C
1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay
(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-
Verlag 45-54
[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert
Identifying interesting web sites Proceedings of the 13th National Conference on Artificial
Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml
[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval
progress report Information Processing and Management 36 2000 p 155-178
[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St
Augustin Germany
[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales
assistants User Modeling and User Adapted Interaction 5(3-4) 349-370
[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993
[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea
httpwwwraees
[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online
recruitment environment Smart Media Institute University College Dublin Ireland
mayacsdepauledu~mobasheritwp01papersrafterpdf
[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search
httpwwwcsutexaseduusersmooney
[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues
and Options Workshop House subcommittee on science research and technology
Washington DC Nov 3 1976
139
BIBLIOGRAFIacuteA Y REFERENCIAS
[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354
[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second
edition 1979 httpwwwdcsglaacukKeith
[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal
of American Society for Information Science 27(3)129-46 1976
[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD
Thesis Harvard University Report ISR-10 to National Science Foundation Harvard
Computation Laboratory (1966)
[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center
Editor Dave Winer En liacutenea julio de 2005
httpblogslawharvardedutechdirectory5aggregators
[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005
httpwwwrssfeedscomreadersphp
[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for
the web Communications of the ACM 40(3) 66-73
[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L
Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001
Enero 2003
[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971
[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer
Science Series McGraw-Hill 1983
[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of
Information by-Computer Addison-Wesley 1998
140
BIBLIOGRAFIacuteA Y REFERENCIAS
[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI
NOVATICA nordm 158 pag 5-9 2002
[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation
Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp
115-152
[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive
Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling
[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler
4th Int WWW Conference 1995
[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en
Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005
httpwwwsiaeuiupmesgruposAinfo2pdf
[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example
MIT Lab Cambridge USA
[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones
sobre Literatura en Espantildeol 2003
httppeterpaneuiupmesindexhtml
[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal
of Man-Machine Studies 23 71-88
[Snow 2005] Snowball httpsnowballtartarusorg
[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of
Documentation 31(4)266-72 1975
[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information
Processing and Management 15(3)133-44 1979
141
BIBLIOGRAFIacuteA Y REFERENCIAS
[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML
Technical report Text Encoding Initiative 1996
[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist
user modeling in a complex commercial software system User Model and User-Adapted Interaction
10 (2-3) 109-146
[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic
user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings
of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien
SpringerWien NewYork 189-200
[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited
Information Processing and Management 28 4 pp 467-490 1994
[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability
and usefulness of the WWW 5th International Conference on User Modeling 5-12
[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten
sobre Estructura y Contenido 1999
[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of
the American Society for Information Science 48(2) 1997 p133-142
[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a
methodology for production coherent consistent dynamically changing models of agentrsquos competencies User
Modeling and User Adapted Interaction 5 (2) 117-150
[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the
Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss
[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley
1949
142
Anexo I Lenguajes de definicioacuten de documentos
En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la
recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos
de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute
parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a
introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de
XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el
segundo denominado Atom con un cometido muy parecido al RSS
Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan
tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los
documentos para delimitar los elementos de estructura Por una parte diferenciaremos
entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de
distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de
definicioacuten de un tipo de documento concreto es decir una instancia de SGML
SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por
iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del
mundo editorial que son los contenidos y la forma de presentar esos contenidos en este
caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el
contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML
permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un
lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene
nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este
lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en
[Herwijnen 1994]
AI1 Hypertext Markup Language
HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado
que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su
estructura y contenido
AI-1
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia
difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su
consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]
El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes
documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que
sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria
sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador
que se utilice el responsable de asegurar que el documento tenga un aspecto coherente
independientemente del tipo de maacutequina desde donde se acceda al documento De esta
manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que
facilita enormemente su manejo por cualquier persona
HTML es un lenguaje muy sencillo que permite preparar documentos Web
insertando en el texto de los mismos una serie de etiquetas o tags que controlan los
diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas
que controlan el comportamiento del documento son fragmentos de texto encerrados entre
aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan
simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten
imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento
Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas
con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]
AI12 Evolucioacuten del Lenguaje HTML
El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico
objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre
fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el
lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se
habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador
realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el
sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994
Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se
descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de
HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo
borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades
AI-2
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de
expresiones matemaacuteticas
Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten
en HTML lenguaje apropiado para elaborar de manera sencilla documentos con
posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo
tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML
No se permite que el usuario especifique su propias etiquetas o atributos para
parametrizar o cualificar semaacutenticamente sus datos
No soporta la especificacioacuten de estructuras complicadas para representar esquemas
de bases de datos o jerarquiacuteas orientadas al objeto
No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar
la validez estructural de los datos en el momento de su importacioacuten
AI2 Extensible Markup Language
Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes
de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C
creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para
desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las
aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de
construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y
directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de
estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser
utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de
2005 es la 11 [Bray 2004]
Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la
Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar
Este subconjunto diferiraacute de HTML en tres aspectos fundamentales
1 Se pueden definir nuevas etiquetas y atributos
2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de
complejidad
AI-3
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
3 Cualquier documento XML puede contener una descripcioacuten opcional de su
gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una
validacioacuten estructural
El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el
contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron
[Bray 2004]
Debiacutea ser directamente utilizable sobre Internet
Debiacutea ser compatible con una amplia variedad de aplicaciones
Debiacutea ser compatible con SGML
Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML
Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero
Los documentos XML deberiacutean ser legibles y razonablemente claros
Un disentildeo de XML deberiacutea poderse preparar raacutepidamente
El disentildeo de XML debiacutea ser formal y conciso
Los documentos XML deben ser faacuteciles de crear
AI21 Estructura de XML
Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de
otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los
empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee
normalmente reflejando el tipo de contenido que delimitan
Un ejemplo de sencillo documento XML se muestra a continuacioacuten
ltpersonagt
ltnombre_completogt
ltnombregtJuanltnombregt
ltapellidosgtPeacuterez Fernaacutendezltapellidosgt
ltnombre_completogt
lttrabajogtfontanerolttrabajogt
ltpersonagt
AI-4
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos
elementos hijos del anterior denominados nombre_completo y trabajo En un
documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo
Aunque no es estrictamente obligatorio los documentos XML deben tener una
declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la
codificacioacuten del texto del documento encoding y la autonomiacutea del documento
standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten
externa para determinar los valores apropiados de ciertas partes del documento Una
declaracioacuten ejemplo es la siguiente
ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt
Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor
adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo
un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo
ltpersona nacida=rdquo23-06-1912rdquogt
Alan Turing
ltpersonagt
AI22 Documentos XML bien-formados
Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe
cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son
Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca
final ldquoltrdquo
Los elementos pueden estar anidados pero no superpuestos
Soacutelo puede existir un elemento raiacutez
Los valores de los atributos deben ir entrecomillados
Un elemento no puede tener dos atributos con el mismo nombre
Los comentarios y las instrucciones de proceso no pueden aparecer entre las
marcas
AI-5
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI23 Especificaciones XML
Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas
especificaciones para XML destacando las siguientes
DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento
Contendraacute una definicioacuten formal de un tipo de documento y a la vez una
especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina
como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado
concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional
en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar
bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se
dice que el documento XML es vaacutelido
XML Schema Es una manera de definir tipos de documentos alternativa a DTD
resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue
especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute
fechada a junio de 20052
XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo
de los documentos escritos para XML Permite modificar el aspecto de un
documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL
Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute
definir transformaciones en forma de reglas para convertir un documento XML en
otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir
el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas
bloques de texto en las paacuteginas graacuteficos y muchos otros
Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes
particulares de un documento XML Como soporte para este objetivo principal
tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y
booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de
1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath
AI-6
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un
documento XML
Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos
XML Los enlaces podraacuten ser simples como los habituales en HTML
bidireccionales enlazando dos documentos en ambas direcciones y
multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de
documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML
AI3 Rich Site Summary
ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir
faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para
utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros
muchos tales como los blogs7 o diarios personales en la Web
Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en
una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a
una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es
accesible mediante el enlace del fichero RSS
Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF
Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que
estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una
coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos
simultaacuteneamenterdquo [Moffat 2003]
AI31 Historia y Origen de RSS
Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en
su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado
6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html
AI-7
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador
ofreciendo una forma muy simple de publicar contenidos y permitiendo a los
desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo
Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten
anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la
aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos
RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como
propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado
por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de
extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten
constantemente Generalmente los ficheros se guardan con extensioacuten RDF
RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten
basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado
de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de
su objetivo proporcionar una herramienta para publicar contenidos de una forma
raacutepida y sencilla en la Web
AI32 RSS 092
Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente
compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son
opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido
Elementos obligatorios
En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el
documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o
canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a
continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss
AI-8
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio
ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt
ltdescriptiongt -- La frase que describe el canal
Elementos opcionales
ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos
son opcionales y otros tres son requeridos
lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal
lttitlegt -- Describe la imagen
ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los
elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del
canal
Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son
nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt
contendraacute un texto relacionado con el renderizado de la imagen en HTML
ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los
agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una
uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo
ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal
ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de
contacto para cuestiones de edicioacuten
ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de
contacto si existen problemas teacutecnicos
ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal
ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en
RSS estaraacuten conformes a la especificacioacuten RFC 82215
14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs
AI-9
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal
ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato
utilizado en el fichero RSS
lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione
realimentacioacuten en forma de texto Contiene varios sub-elementos que son
requeridos
lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto
ltdescriptiongt -- Describe el area de texto donde se escribe
ltnamegt -- Nombre del objeto de texto
ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto
ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos
del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o
Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en
este elemento
ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos
de hora que representan la hora en formato GMT17 Los lectores de noticias no
leeraacuten el canal durante las horas especificadas en este elemento
15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich
AI-10
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
iquestQueacute es un iacutetem
Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben
contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno
de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute
compuesto por los siguientes elementos opcionales
lttitlegt Es el tiacutetulo de la noticia
ltlinkgt Direccioacuten Web que apunta a la noticia
ltdescriptiongt Es el resumen de la noticia
Nuevos elementos respecto a la versioacuten RSS 091
ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal
RSS de donde proviene el item se deriva del tiacutetulo
ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto
adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra
ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten
el estaacutendar MIME18
ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo
opcional domain que identificaraacute la categoriacutea en una taxonomiacutea
ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un
servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal
18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje
AI-11
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 092
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un
canal y un elemento item
ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt
ltrss version=092gt
ltchannelgt
lttitlegtELPAISeslttitlegt
ltlinkgthttpwwwelpaisesltlinkgt
ltdescriptiongtRSS de ELPAISesltdescriptiongt
ltlanguagegtes-esltlanguagegt
ltitemgt
lttitlegtEspantildea consigue sus primeros oros en los Juegos del
Mediterraacuteneolttitlegt
ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt
ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una
exitosa jornada de competicioacuten donde sumoacute un total de 23
medallasltdescriptiongt
ltitemgt
ltchannelgt
ltrssgt
En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten
de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y
el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y
descripcioacuten correspondientes
AI-12
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI33 RSS 20
Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible
con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20
vaacutelido
Nuevos elementos respecto a la versioacuten anterior
Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan
definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han
incorporado los siguientes
ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la
direccioacuten Web donde se encuentran los comentarios acerca del item
ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el
programa que ha generado el archivo RSS
ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la
direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la
persona que ha escrito el artiacuteculo
ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de
vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el
canal en memoria antes de ser refrescado
ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que
indica cuaacutendo fue publicado el item
ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador
uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el
item es nuevo o no
AI-13
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 20
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un
canal y dos elementos item
ltxml version=10 encoding=utf-8 gt
ltrss version=20gt
ltchannelgt
lttitlegtEl Blog Salmoacutenlttitlegt
ltlinkgthttpwwwelblogsalmoncomltlinkgt
ltdescriptiongtEl Blog Salmoacutenltdescriptiongt
ltcopyrightgtCopyright 2005ltcopyrightgt
ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt
ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt
ltdocsgthttpblogslawharvardedutechrssltdocsgt
ltitemgt
lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt
ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt
ltitemgt
ltitemgt
lttitlegtVuelven las nacionalizacioneslttitlegt
ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt
ltitemgt
ltchannelgt
ltrssgt
Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS
tales como ltgeneratorgt y ltpubDategt
AI-14
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI4 Atom
Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten
de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la
distribucioacuten de contenidos y noticias de sitios web
Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares
similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de
muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en
proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom
La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005
Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda
raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener
maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS
Un ejemplo de Atom 10
Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una
sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de
RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt
ltxml version=10 encoding=utf-8gt
ltfeed xmlns=httpwwww3org2005Atomgt
lttitlegtEjemplo de entradalttitlegt
ltlink href=httpexampleorggt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltauthorgt
ltnamegtJuan Jltnamegt
ltauthorgt
ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt
ltentrygt
lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt
ltlink href=httpexampleorg20031213atom03gt
ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltsummarygtTexto del resumenltsummarygt
ltentrygt
ltfeedgt
19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html
AI-15
Anexo II Un Agregador Inteligente
Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos
disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa
desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el
mismo nombre por simplicidad
La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones
que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o
usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y
seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen
es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como
cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al
usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se
muestra el aspecto usual del programa
Figura AII1 Aspecto principal del programa NectaRSS
AII-1
UN AGREGADOR INTELIGENTE
Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea
acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute
otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya
subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre
seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos
tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS
Para efectuar los experimentos se dotoacute al programa de un modo de trabajo
especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni
destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha
considerado para no condicionar en modo alguno las decisiones del usuario experimental a
la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura
AII3
AII-2
UN AGREGADOR INTELIGENTE
Figura AII3 Aspecto del programa NectaRSS en modo experimento
Adicionalmente el programa genera una paacutegina web con las recomendaciones de
titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin
httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del
diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los
visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute
personalizado para un usuario concreto puede resultar interesante a personas que
compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en
la figura AII4
AII-3
UN AGREGADOR INTELIGENTE
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el
programa NectaRSS
A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la
evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del
programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los
experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos
resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores
numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo
informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad
AII-4
UN AGREGADOR INTELIGENTE
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema
Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web
Diario El Mundo (httpabraldesnetfeedselmundoxml)
Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)
Barrapunto (httpbackendsbarrapuntocombarrapuntorss)
Diario Marca (httpabraldesnetfeedsmarcaxml)
Kriptoacutepolis (httpwwwkriptopolisorgrss)
eCuaderno (httpwwwecuadernocomindexxml)
xataka (httpxatakacomesindexxml)
alzadoorg (httpwwwalzadoorgxmlalzadoxml)
Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)
tintachina (httpwwwtintachinacomindexxml)
Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)
Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)
TIME Magazine (httprsstimecomwebtimersstopindexxml)
CNET reviews (httpreviewscnetcom4924-5_7-0xml)
Artnovela (httpwwwartnovelacomarbackendphp)
Blogdecine (httpwwwblogdecinecomindexxml)
Stardustcf (httpwwwstardustcfcomrdfasp)
Una furtiva mirada (httpfurtivosbloxuscomrdfxml)
Pedro Jorge (httpwwwpjorgecomrss)
Atalaya (httpatalayablogaliacomrdfxml)
Malos Pensamientos (httpmpblogaliacomrdfxml)
Libryscom (httpwwwlibryscomfeedrss)
El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)
AII-5
UNIVERSIDAD DE GRANADA
ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA
INTELIGENTE PARA LA RECUPERACIOacuteN Y EL
FILTRADO DE INFORMACIOacuteN DE INTERNET
Memoria presentada por
Juan Joseacute Samper Maacuterquez
Para optar al grado de
DOCTOR EN INFORMAacuteTICA
Fdo Juan Joseacute Samper Maacuterquez
D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad
y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del
Departamento de Arquitectura y Tecnologiacutea de la Universidad de
Granada
CERTIFICAN
Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para
la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por
D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el
Departamento de Arquitectura y Tecnologiacutea de Computadores de la
Universidad de Granada para optar al grado de Doctor en Informaacutetica
Granada a 30 de septiembre de 2005
Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso
Director de la Tesis Director de la Tesis
A mi hijo
i
ii
Agradecimientos
Mi respeto y agradecimiento profundo a todas las personas que me han
ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis
Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su
paciencia y dedicacioacuten
iii
iv
Resumen
En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten
denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los
intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las
preferencias del usuario evitando la realimentacioacuten expliacutecita
Se realiza una revisioacuten de todos los conceptos relacionados con el sistema
mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el
problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente
Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la
implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos
demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses
de cada individuo
Abstract
In this thesis a new system called NectaRSS for information retrieval and filtering is
presented The system recommends information to a user based on his past choices The
method automatically accomplishes the task of user preferences acquisition avoiding
explicit feedback
In this work a review of all the concepts related to the system is first performed
showing different approaches to the problem of user profile construction emphasizing
web information retrieval systems where NectaRSS will be initially applied
The efficiency of the proposed method is proved applying it to the implementation
of an intelligent aggregator used by different and heterogeneous users proving its ability to
offer the information personalized according to each individualrsquos interests
v
vi
IacuteNDICE GENERAL
Agradecimientosiii
Resumen v
IacuteNDICE GENERAL vii
IacuteNDICE DE FIGURAS xi
IacuteNDICE DE TABLAS xv
1 INTRODUCCIOacuteN 1
11 Organizacioacuten de la tesis 2
2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5
21 Introduccioacuten5
22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7
2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13
222 El Modelo Probabiliacutestico 17
23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20
2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26
Navegadores 26 Agregadores de contenidos 27
233 Sistemas de recomendacioacuten 29
24 Resumen 31
3 EVALUACIOacuteN DE LOS SISTEMAS RI 33
31 Relevancia y Pertinencia 33
32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41
vii
IacuteNDICE GENERAL
324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45
3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46
33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50
34 Resumen 52
4 PERFILES DE USUARIO 55
41 iquestQueacute es un Perfil 55
42 Meacutetodos de creacioacuten de perfiles 56
43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60
44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61
4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61
442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63
4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64
45 Realimentacioacuten del usuario 64
46 Agentes Software y creacioacuten de perfiles 66
47 Modelos Estadiacutesticos 67
48 Razonamiento Basado en Reglas 68
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario
automaacutetico 68
410 Resumen 70
viii
IacuteNDICE GENERAL
5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS
BASADO EN PERFILES 73
51 Introduccioacuten73
52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de
navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario
77
53 Caacutelculo de la puntuacioacuten de los titulares79
531 Puntuacioacuten alternativa de los titulares 81
54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82
55 Resumen 83
6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85
61 Objetivo general del sistema y esquema de su experimentacioacuten 85
62 Metodologiacutea seguida 86
63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90
64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99
65 Resumen 100
7 RESULTADOS DE LOS EXPERIMENTOS101
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106
73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113
ix
IacuteNDICE GENERAL
752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122
77 Resumen 124
8 CONCLUSIONES 127
81 Principales Aportaciones y Conclusiones 128
82 Liacuteneas de investigacioacuten futuras 129
Bibliografiacutea y Referencias131
Anexo I Lenguajes de definicioacuten de documentos AI1
AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2
AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6
AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13
AI4 Atom AI15
Anexo II Un Agregador Inteligente AII1
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5
x
IacuteNDICE DE FIGURAS
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57
Figura 51 Vista general del sistema NectaRSS propuesto 74
xi
IacuteNDICE DE FIGURAS
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116
xii
IacuteNDICE DE TABLAS
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123
Figura AII1 Aspecto principal del programa NectaRSS AII1
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2
Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4
xiii
IacuteNDICE DE TABLAS
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105
xv
IacuteNDICE DE TABLAS
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123
xvi
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA
PRESENTE MEMORIA
RI Recuperacioacuten de Informacioacuten
SRI Sistema de Recuperacioacuten de Informacioacuten
E-P Par Exhaustividad-Precisioacuten
P Perfil de usuario
Ps Perfil de sesioacuten
Pr Perfil de resumen
T Conjunto de titulares
E(T) Conjunto de titulares elegidos
D(T) Conjunto de titulares destacados
CRS Con Resumen ndash Sin resumen
DIV Determinacioacuten del Intervalo de Vida
IRP Importancia Relativa de los Perfiles
CRS2 Con Resumen ndash Sin resumen (2)1
PAU Prueba del Algoritmo con diferentes Usuarios
PPA Probar Puntuacioacuten Alternativa
tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di
tfhk Frecuencia del teacutermino tk en el titular h
wij Relevancia del teacutermino tj en el documento di
wh Vector caracteriacutestica del titular h
sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh
fol Factor de olvido
CP Tasa que mide el porcentaje de titulares elegidos
1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros
xvii
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS
CR Tasa que mide el porcentaje de titulares ofrecidos destacados
CT Tasa que mide el porcentaje de titulares elegidos destacados
CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la
puntuacioacuten media maacutexima
E Error Absoluto Medio
σ Desviacioacuten Estaacutendar del Error
r Coeficiente de Correlacioacuten entre titulares
RP(i) R-Precisioacuten en la sesioacuten i
xviii
Capiacutetulo 1
INTRODUCCIOacuteN
En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente
indispensable y en la principal fuente de informacioacuten para una parte importante de la
poblacioacuten del mundo desarrollado
Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de
2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se
tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o
intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo
tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de
fuentes muy variadas
En general dada la gran cantidad de fuentes de informacioacuten disponibles
actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de
un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente
inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada
hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten
ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que
una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos
maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que
pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten
ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma
automaacutetica
Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de
informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias
que denominaremos NectaRSS
1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom
1
INTRODUCCIOacuteN
Como segundo objetivo buscaremos una forma de obtener las preferencias del
usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en
el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten
incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya
realizando tal usuario
Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear
ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes
estrategias y opciones para que el resultado sea oacuteptimo
11 Organizacioacuten de la tesis
Esta tesis se organiza de la forma siguiente
El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y
de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial
de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de
recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la
relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado
automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como
sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten
especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho
contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se
fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de
la Web en particular y en conocer los modelos tiacutepicos para representar los
documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute
el modelo vectorial
En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas
de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la
pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten
destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad
principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar
la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se
tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas
alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la
2
INTRODUCCIOacuteN
medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las
teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario
para aplicar dichas teacutecnicas al sistema experimental NectaRSS
El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes
se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas
para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de
adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la
adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil
de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de
razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la
realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil
correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas
utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los
modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o
ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas
Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web
basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro
trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de
usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las
preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para
representar las preferencias de eacuteste
En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y
recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador
inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema
comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil
de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la
utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute
coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del
coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema
propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la
base teoacuterica que subyace en dicho sistema
El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se
expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea
3
INTRODUCCIOacuteN
seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la
experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que
se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del
sistema en base a las variables consideradas en los experimentos distinguiendo
distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten
referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de
informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el
usuario respecto a la que le ofrece el sistema empleando para ello medidas como el
Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la
R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute
medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental
propuesto NectaRSS
En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados
obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer
conclusiones que permitan determinar diversos paraacutemetros del sistema y para
evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando
su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la
efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas
que evaluacutean su funcionamiento
Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales
aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido
y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la
tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir
de la investigacioacuten con NectaRSS
4
Capiacutetulo 2
LOS SISTEMAS DE RECUPERACIOacuteN DE
INFORMACIOacuteN
En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado
en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI
o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos
modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten
de informacioacuten en la Web y los sistemas de recomendacioacuten
El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis
NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea
de intereacutes de los usuarios analizando para ello el contenido de los documentos se
realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de
cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se
realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las
preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta
manera se podraacute recomendar la informacioacuten a cada usuario
21 Introduccioacuten
La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una
determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow
1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es
traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada
por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]
Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos
relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman
1998]
Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por
Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten
5
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza
define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de
informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos
relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo
[Baeza 1999]
Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno
recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se
diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los
gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un
conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que
determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la
peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de
indizacioacutenrdquo
Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel
conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]
22 Modelos para la recuperacioacuten de informacioacuten
Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se
obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar
la relevancia de un documento respecto a una consulta los meacutetodos para establecer la
importancia u orden de los documentos de salida y los mecanismos que permiten una
realimentacioacuten por parte del usuario para mejorar la consulta
Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por
[Dominich 2000] que se muestra en la tabla 21
Partiendo de la tarea inicial que realiza el usuario es posible realizar una
clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de
informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de
documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se
introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de
estructura guiada o de hipertexto seguacuten puede verse en la tabla 22
6
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Modelo Descripcioacuten
Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial
Alternativos Basados en la Loacutegica Fuzzy
Loacutegicos Basados en la Loacutegica Formal
Basados en la
interactividad
Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de
retroalimentacioacuten por relevancia
Basados en la
Inteligencia Artificial
Redes neuronales bases de conocimiento algoritmos geneacuteticos y
procesamiento de lenguaje natural
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente
[Dominich2000]
Vista loacutegica de los documentos
Teacuterminos iacutendice Texto Completo Texto Completo +
Estructura
Recuperacioacuten Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Estructurados
Mod
alida
d
Navegacioacuten Estructura plana Estructura plana
Hipertexto
Estructura guiada
Hipertexto
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la
modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]
221 El Modelo Vectorial
Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el
modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada
documento estaba representado por un vector de teacuterminos y cada componente del vector
representaba el peso wij del teacutermino tj presente en el documento di De esta manera la
representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)
donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento
di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino
Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en
funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una
coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera
a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21
7
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t1 t2 t3 hellip tj hellip tm
d1 w11 w12 w13 hellip w1j hellip w1m
d2 w21 w22 w23 hellip w2i hellip w2m
di wi1 wi2 wi3 hellip wij hellip wim
dn wn1 wn2 wn3 hellip wnj hellip wnm
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]
Una consulta podraacute representarse de igual misma manera que un documento
asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia
de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)
En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos
tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di
dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj
A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten
wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento
Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos
Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por
[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y
su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten
mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las
palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e
idf representa la frecuencia inversa del documento
8
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre
dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22
[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los
sistemas RI vectoriales
Medida de Similitud Modelo Vectorial
Producto escalar sum=sdot
m
i ii YX1
Coeficiente de Dice sum sum
sum= =
=
+
sdotsdotm
i
m
i ii
m
i ii
YX
YX
1 122
12
Coeficiente del coseno sum sumsum= =
=
sdot
sdotm
i
m
i ii
m
i ii
YX
YX
1 122
1
Coeficiente de Jaccard sumsum sum
sum== =
=
sdotminus+
sdotm
i iim
i
m
i ii
m
i ii
YXYX
YX
11 122
1
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]
Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno
mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten
como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la
medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de
teacuterminos como
sum sumsum
= =
=
sdot
sdot=
sdotsdot
=m
1j
m
1j2kj
2ij
m
1j kjij
ki
kiki
ww
ww
qdqd)qsim(d rrrr
(21)
Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede
observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una
consulta q respecto a los ejes t1 t2 y t3
9
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t3
t1
t2
d1 = 2t1+ 3t2 + 5t3
d2 = 3t1 + 7t2 + 1t3
q = 0t1 + 0t2 + 2t3
7
32
5
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo
vectorial Fuente [Raymond 2005]
El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se
efectuaraacute como sigue
810)400()2594(
52)( 1 =++sdot++
sdot=qdsim
130)400()1499(
12)( 2 =++sdot++
sdot=qdsim
teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)
De los resultados se deduce que el documento d1 es bastante maacutes similar a la
consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que
representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que
representa a d2 y el vector que representa a q tal y como puede verse en la figura 24
10
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
θ2
t3
t1
t2
d1
d2
q
θ1
θ2
t3
t1
t2
d1
d2
q
θ1
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la
consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]
Al contar con una medida de similitud como la del coseno entre cada documento y
una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los
documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)
sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no
exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente
de similitud
2211 Realimentacioacuten de la Relevancia
Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un
juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta
informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta
A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia
Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de
documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de
este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con
los documentos identificados previamente como relevantes y al mismo tiempo que sea
menos similar a los documentos marcados como poco relevantes por el usuario De esta
manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos
documentos irrelevantes que las consultas previamente formuladas
11
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
La reformulacioacuten de consultas se basa en las dos operaciones complementarias
siguientes
Los teacuterminos que aparecen en los documentos identificados previamente como
relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso
se incrementaraacute por un factor si ya se encontraban en dicho vector
Los teacuterminos que aparecen en los documentos previamente identificados como
no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso
seraacute reducido
Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como
se requiera para mejorar el resultado de la consulta
2212 Agrupacioacuten o ldquoclusteringrdquo de documentos
La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un
documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre
pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre
ellos puede definirse como
sum sumsum
= =
=
sdot
sdot=
sdot
sdot=
m
k
m
k jkik
m
k jkik
ji
jiji
ww
ww
dd
ddddsim
1 122
1)( rr
rr
(22)
Si determinamos la similitud entre pares de documentos se podraacute construir un
agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un
representante de esa clase denominado centroide
Dado un conjunto de m documentos que constituyen una clase p el centroide
Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los
documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p
puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de
documentos en la clase p
m
wc
m
1i ikpk
sum== (23)
12
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
De esta manera al organizar los documentos en clases la buacutesqueda de un
documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los
centroides de cada clase calculando los correspondientes coeficientes de similitud Luego
los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se
compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos
que resulten similares a la consulta
Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada
una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones
entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales
2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos
La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso
de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se
determinan los teacuterminos representativos del contenido de un documento y segundo se
asigna a cada teacutermino un peso o valor que refleje su importancia como representante del
contenido del documento
La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos
que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el
resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa
la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes
profundo
La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la
frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la
importancia de ese teacutermino como representante del contenido del documento Si
ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de
aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y
como enuncia la ley de Zipf en [Zipf 1949]
zordenfrecuencia asympsdot (24)
Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en
el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada
por el suyo correspondiente
13
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino
basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los
siguientes pasos
1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino
tj en cada documento di tfij
2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten
completa sumando sus frecuencias en los n documentos
sum==
n
1i ijj tftf_tot
3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas
que tengan un valor superior a un umbral dado para excluir las palabras
muy frecuentes
4 Del mismo modo se eliminan las palabras poco frecuentes
5 Las palabras restantes con una frecuencia media se utilizaraacuten para
caracterizar los documentos indexados
Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que
establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de
aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de
resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems
relevantes [Vegas 1999]
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]
14
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir
peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes
puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales
correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto
nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto
y su sustitucioacuten por frecuencias relativas mediante diversas estrategias
La Frecuencia de Documento Inversa Consiste en asumir que la importancia del
teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada
documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se
encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del
teacutermino tj en el documento di como
wij = tfij dfi (25)
El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso
de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de
documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)
para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud
generan valores entre 0 para documentos sin similitud y 1 para documentos
completamente iguales
Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se
puede calcular una similitud media para la coleccioacuten
sumsum= =
=n
1i
n
1jji )dsim(dcsim con i ne j (26)
donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una
medida de la densidad del espacio de documentos el grado en que los documentos se
agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim
tendriacutea el valor c n(n - 1) = 1
15
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para calcular de manera maacutes eficiente la densidad del espacio de documentos se
puede obtener un documento medio d como centroide cuyos teacuterminos se supone que
poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se
definiraacute como
sum=
=n
1iijj tf
n1tf (27)
En este punto se calcularaacute la densidad del espacio de documentos como la suma de
las similitudes de cada documento con respecto al centroide con la siguiente foacutermula
menos costosa que la (26)
sum=
=n
1ii )dd(simcsim (28)
Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los
documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en
este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una
distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos
los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de
documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se
asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio
de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos
documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre
documentos
Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como
simsimdv jj minus= (29)
Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten
ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que
16
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la
lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar
en tres categoriacuteas seguacuten su valor de discriminacioacuten
Buenos discriminadores con un valor dvj positivo que al ser considerados en la
indexacioacuten decrementan la densidad del espacio
Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o
adicioacuten no variacutea la similitud entre documentos
Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los
documentos
Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo
para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de
discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos
con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su
consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede
afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de
teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con
poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en
la indexacioacuten coincidiendo con los de frecuencia intermedia
Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la
frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de
discriminacioacuten
wij = tfij dvj (210)
222 El Modelo Probabiliacutestico
Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de
una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo
sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la
distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de
17
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la
relevancia para automatizar el ajuste del valor de sus paraacutemetros
La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los
teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial
La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en
la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los
documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de
los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada
de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la
coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero
de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que
incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado
de sumar las filas y columnas correspondientes
doc relevantes doc no relevantes
t isin doc r n - r n
t notin doc R - r N ndash n ndash R + r N - n
R N - R N
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]
Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck
Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino
basaacutendose en los resultados de una consulta previa
)(
)(log)(1
NnRr
tw = (211)
)(
)(log)(2
RNrn
Rr
tw
minusminus
= (212)
18
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
)(
)(log)(3
nNn
rRr
tw
minus
minus= (213)
)(
)(log)(4
rRnNrnrR
r
tw
+minusminusminusminus= (214)
Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores
destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de
experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)
proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)
23 La Web como sistema de recuperacioacuten de informacioacuten
Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para
intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto
y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la
informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era
evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el
acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han
convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad
de establecer viacutenculos entre los documentos
La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema
suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de
tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente
impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces
permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores
permitiendo asimismo almacenar referencias entre documentosrdquo
Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir
ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular
No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se
1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]
19
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior
crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres
antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se
hiciera apremiante
Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se
precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado
Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten
como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes
para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la
Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos
231 Meacutetodos de recuperacioacuten de informacioacuten en la Web
Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI
tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos
almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de
recuperacioacuten de informacioacuten en la Web
La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la
configuran como un entorno singular y diferente de los claacutesicos Algunas de estas
caracteriacutesticas son las siguientesrdquo [Delgado 2001]
Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes
de 8000 millones de paacuteginas web indizadas por el buscador Google
Heterogeneidad de las publicaciones en cuanto a
o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas
personales y comerciales
o Tipos de datos las paacuteginas web pueden contener texto simple y elementos
multimedia Ademaacutes admiten muchos formatos
o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y
aunque existen unas especificaciones de dicho lenguaje publicadas por el
2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I
20
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que
los navegadores son muy permisivos respecto a la sintaxis de los
documentos Esto dificulta su lectura e indizacioacuten mediante un programa
informaacutetico
o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el
autor o su fecha de publicacioacuten datos muy importantes en las referencias
bibliograacuteficas
o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e
instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad
cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores
tipograacuteficos
o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la
estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de
los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de
texto que cabe en la pantalla sin realizar desplazamientos con documentos
completos con el desarrollo de una idea Un documento puede contener
una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener
resuacutemenes o extractos de varios documentos
Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo
para cualquiera de los millones de internautas
Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como
resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo
de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian
totalmente de contenido manteniendo la misma URL
Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas
como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que
por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor
3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red
21
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles
mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra
ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la
diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su
organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario
determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo
[Delgado 2001]
2311 Herramientas de buacutesqueda en la Web
Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web
ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los
documentos existentes en la globalidad de la Web y permiten localizar informacioacuten
mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que
clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus
secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten
de su estructura hipertextualrdquo [Baeza 1999]
Motores de Buacutesqueda o Buscadores
Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y
localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea
a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea
diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un
rastreo recursivo de los documentos que se referencian [Delgado 2001]
Se puede observar el tamantildeo de la base de datos de los principales buscadores y su
evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6
5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom
22
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003
GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos
desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea
Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten
mediante un formulario Este puede consistir desde una simple caja donde teclear las
palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un
mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la
posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a
veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML
por tipo de fuente por aacuterea geograacutefica o dominio y por idioma
Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten
criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de
la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas
Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus
procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos
recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad
por lo que podemos encontrarnos con muchos resultados poco uacutetiles
Directorios
Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una
estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden
23
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey
Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary
of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en
algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten
estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten
para los usuarios asiduos de bibliotecas familiarizados con tales esquemas
En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad
formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio
Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada
Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la
estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario
puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten
adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta
Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que
elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar
globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la
estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea
en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos
existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y
clasificacioacuten de los documentos
Multibuscadores
Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta
dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces
recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler
[Selberg 1995] y SavvySearch [Howe 1997]
Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la
posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de
forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias
individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los
que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los
resultados de forma concatenada es decir para cada motor interrogado se presenta una lista
24
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
de los resultados obtenidos y otros que permiten obtener los resultados de forma
integrada eliminando los duplicados e indicando para cada resultado queacute buscador o
buscadores lo han proporcionadordquo
Buacutesquedas aprovechando la estructura hipertextual de la Web
Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo
utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo
mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software
La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de
enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo
podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una
imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para
posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes
importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y
los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para
representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL
[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]
La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de
texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La
principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en
el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute
utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada
para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de
que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la
buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con
ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las
paacuteginas ldquovecinasrdquo
Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica
en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes
heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en
cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados
recuperados [Baeza 1999]
25
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
232 Navegando por la informacioacuten de la Web
Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto
sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la
Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web
Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es
utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros
programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las
principales caracteriacutesticas de estos programas
Navegadores
Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario
recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a
traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea
Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de
viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o
enlaces
La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de
documentos de texto posiblemente con recursos multimedia incrustados Tales
documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que
enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado
con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en
cualquier ordenador conectado a Internet se llama navegacioacuten
El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de
1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en
determinados equipos de trabajo
El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para
distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape
Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad
7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas
26
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los
navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos
antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada
vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape
Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el
proyecto Mozilla
A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla
que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador
maacutes ligero que su hermano mayor
Agregadores de contenidos
Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas
paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo
RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta
manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas
fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para
obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta
Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]
[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una
parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes
para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas
fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar
alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten
aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el
usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de
presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la
figura 28
9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I
27
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom
Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que
proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de
informacioacuten con muacuteltiples opciones de personalizacioacuten
Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles
en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de
2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear
subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan
parcialmente el problema automatizando las consultas y aglutinando todos los contenidos
recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De
esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten
interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o
cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello
en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten
de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema
puntuacutee como interesante en base a sus intereses particulares
11 httpmyfeedstercomloginphp
28
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador
inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus
intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia
de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido
caracteriacutesticas que poseen lenguajes del tipo RSS o Atom
233 Sistemas de recomendacioacuten
En Internet existe una gran cantidad de sitios especializados que ofertan millones de
productos y servicios para su consumo Eacuteste hecho puede resultar un importante
inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones
existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun
sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo
servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a
sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un
proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos
relevantes para cada usuario en concretordquo [Serradilla 2005]
Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno
interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden
albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran
cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer
et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en
tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de
recomendacioacuten y al resto de aspectos del disentildeo
Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en
agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la
vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una
arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]
Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que
recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de
los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los
usuarios se representan como vectores en los que cada componente contendraacute la
valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este
29
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre
amigos
En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un
weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta
empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo
atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera
un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de
encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog
En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar
sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten
persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el
filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web
especializado
Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a
sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada
usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede
suministrar la informacioacuten clasificada individualmente proporcionando un orden
personalizado de conceptos para navegar por la Web El sistema se construye utilizando las
caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN
[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma
jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27
[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep
para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del
usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de
aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica
Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este
sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se
clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del
comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de
informacioacuten recomendado por el sistema
12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad
30
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente
httpwwwittckueduobiwan
24 Resumen
En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de
informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten
Se han expuesto varias propuestas de clasificacioacuten de los modelos para la
recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial
y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la
proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los
documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la
similitud entre documentos y consultas destacando la medida de similitud del coseno
ampliamente utilizada
Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario
para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos
para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre
pares de documentos
31
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para construir los vectores asociados a los documentos se necesita un proceso de
indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos
teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf
Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en
un documento por frecuencias relativas como la frecuencia de documento inversa o el
valor de discriminacioacuten
El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los
pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los
valores de una tabla de contingencias
Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten
de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar
meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda
de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros
sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando
lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software
Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo
disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la
informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes
para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al
comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones
electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques
Por uacuteltimo se han comentado los agregadores de contenidos que recogen
informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas
paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de
marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades
de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos
deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario
La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de
recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten
para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el
sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos
utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una
especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos
32
Capiacutetulo 3
EVALUACIOacuteN DE LOS SISTEMAS RI
Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada
expresamente a establecer medidas para valorar su efectividad Existen evaluaciones
basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer
conjunto de medidas alternativas que evitan realizar juicios de relevancia
Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema
NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los
sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para
posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la
relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para
comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de
medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de
deslizamiento y la medida de Voiskunskii
31 Relevancia y Pertinencia
Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en
gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten
[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el
teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo
Podemos entender entonces que un documento recuperado se consideraraacute relevante
cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad
de informacioacuten del usuario
Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir
problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse
como relevante o no
El mismo documento puede ser considerado como relevante por una persona e
irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas
33
EVALUACIOacuteN DE LOS SISTEMAS RI
Incluso el mismo documento puede resultar relevante o no a la misma persona en
momentos diferentes [Lancaster 1993]
Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un
documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que
explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel
concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser
explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]
Es posible que los documentos resulten relevantes en alguno de sus apartados con
una materia determinada pero no en el resto de sus contenidos Esta relevancia
parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute
adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua
en lugar de una funcioacuten binaria
Estos problemas condicionan la viabilidad de la relevancia como criterio en la
evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la
ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un
usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener
problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para
decidir si un documento le resulta uacutetil o no
Lancaster considera que la relevancia de un documento estaraacute relacionada con la
satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos
contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra
ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de
relacionar los contenidos de un documento con un tema determinado y pertinencia se
relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de
informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de
documentos recuperados se puede definir como el subconjunto de documentos apropiado
para la necesidad de informacioacuten del usuariordquo [Salton 1983]
Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo
como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces
decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno
proporcionaacutendole informacioacuten para alguacuten propoacutesito
Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta
34
EVALUACIOacuteN DE LOS SISTEMAS RI
manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto
de vista del usuario que realiza la operacioacuten de recuperar informacioacuten
32 Meacutetodos tradicionales de evaluacioacuten de SRI
La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos
puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el
acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o
no del contenido
Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo
de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et
al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten
la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la
exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son
faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que
mediraacuten verdaderamente la efectividad del sistema
Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas
divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el
tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y
la presentacioacuten [Chowdhury 1999]
Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre
el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas
en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del
resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes
Medidas basadas en la Relevancia
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos relevantes
Promedio de la
efectividad E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente
[Meadow1993]
35
EVALUACIOacuteN DE LOS SISTEMAS RI
Medidas basadas en el Proceso
Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el
grado de solapamiento con otras relacionadas
Contenido Tipo de documentos de la base de datos temaacutetica de los
documentos frecuencia de actualizacioacuten
Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o
precisa intermediacioacuten
Errores en el establecimiento de la
consulta
Media de errores sintaacutecticos en la escritura de la
buacutesqueda que propician la recuperacioacuten de conjuntos
vaciacuteos y erroacuteneos
Tiempo medio de realizacioacuten de la
buacutesqueda
Tiempo medio de realizacioacuten de una estrategia de
buacutesqueda
Dificultad en la realizacioacuten de la
buacutesqueda
Problemas que los usuarios inexpertos se pueden
encontrar
Nuacutemero de comandos precisos para una
buacutesqueda
Promedio de instrucciones necesarias para realizar una
buacutesqueda
Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten
Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda
Nordm de documentos revisados por el
usuario
Promedio de documentos que los usuarios estaacuten
dispuestos a revisar
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]
Medidas de resultado
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos relevantes
Promedio de la efectividad
E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Medidas promedio de la
satisfaccioacuten del usuario
Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante
el resultado de una buacutesqueda
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]
El conjunto de medidas basadas en la relevancia es el que se considera maacutes
importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de
otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar
36
EVALUACIOacuteN DE LOS SISTEMAS RI
aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las
basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia
introduciendo algunos aspectos diferenciadores
321 Medidas basadas en la relevancia
Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un
conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de
documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro
subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente
este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto
conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan
estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados
en el conjunto formado por la totalidad de documentos
documentos relevantes A
documentos no relevantes notA
documentos recuperados relevantes
A cap B
documentos recuperados no relevantes
notA cap B
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El
color maacutes oscuro indica el subconjunto B de documentos recuperados
Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de
buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en
donde A representa el conjunto de documentos relevantes B representa el conjunto de
37
EVALUACIOacuteN DE LOS SISTEMAS RI
documentos recuperados notA representa el conjunto de documentos no relevantes y notB
representa el conjunto de documentos no recuperados
RELEVANTES NO RELEVANTES
RECUPERADOS A cap B notA cap B B
NO RECUPERADOS A cap notB notA cap notB notB
A notA
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]
Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros
autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute
como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de
fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35
Precisioacuten |B|
|BA| cap
Exhaustividad |A|
|BA| cap
Tasa de Fallo |A|
|BA|notcapnot
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]
La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes
con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes
recuperados entre el total de documentos recuperados
La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes
recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy
difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero
no se podraacute afirmar esa cantidad con total seguridad
La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes
respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes
38
EVALUACIOacuteN DE LOS SISTEMAS RI
importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos
Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la
generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes
sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel
grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto
grado de generalidad tendraacute una mayoriacutea de documentos relevantes
Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola
precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece
en la siguiente expresioacuten
)G1(F)GE()GE(Pminus+sdot
sdot= (31)
en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo
Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad
asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse
en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje
Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de
[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente
relacionados
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]
39
EVALUACIOacuteN DE LOS SISTEMAS RI
Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean
medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los
usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a
un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la
necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la
cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute
considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si
que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se
buscaraacute una gran exhaustividad
322 Medidas orientadas al usuario
Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la
evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el
conjunto de documentos relevantes para una respuesta es siempre el mismo
independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la
realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son
relevantes y cuales no
Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de
que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la
relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y
[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los
antildeos setenta [Korfhage 1997] Se distinguen tres comunes
Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el
usuario ha recuperado
Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran
previamente desconocidos para el usuario
Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados
examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute
dispuesto a examinar
40
EVALUACIOacuteN DE LOS SISTEMAS RI
Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de
documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad
indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea
Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio
entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de
documentos examinados al intentar encontrar esos documentos relevantes Para ello se
parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y
el sistema permite al usuario localizar todosrdquo [Korfhage 1997]
323 Caacutelculo de la Exhaustividad y la Precisioacuten
Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se
presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute
una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que
enumeraremos a continuacioacuten
Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base
de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los
documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea
escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de
recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo
Otro procedimiento para calcular la exhaustividad consiste en asignar a varias
personas la tarea de analizar los documentos recuperados Este procedimiento resulta
complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el
usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios
de valor y lo que sea interesante para una puede no serlo para la otra
Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la
coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se
estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas
El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague
[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy
bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra
deberiacutea ser muy grande lo que complica el anaacutelisis
41
EVALUACIOacuteN DE LOS SISTEMAS RI
Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra
de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista
que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse
sin problemas a una base de datos global y por ello sugiere que puede hacerse
Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de
una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige
una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que
resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los
valores calculados para la exhaustividad y la precisioacuten son los siguientes
Relevante E P
d1 X 025 1
d2 X 05 1
d3 05 066
d4 X 075 075
d5 075 06
d6 075 05
d7 X 1 057
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos
Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben
realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un
uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un
documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el
total de documentos relevantes)
Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes
recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son
dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el
nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos
relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir
un graacutefico como el que se muestra en la figura 33
42
EVALUACIOacuteN DE LOS SISTEMAS RI
Pares de valores exhaustividad-precisioacuten
0
01
02
03
04
05
06
07
08
09
1
d1 d2 d3 d4 d5 d6 d7
Val
or
Exhaustividad Precisioacuten
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la
precisioacuten seguacuten Salton tomados de la tabla 36
Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja
claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la
coleccioacutenrdquo [Salton 1983]
Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de
una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten
corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial
de 1 hasta el de 066
324 Medidas promedio exhaustividad-precisioacuten
Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de
medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la
realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media
aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales
43
EVALUACIOacuteN DE LOS SISTEMAS RI
de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P
seraacute
sum= +
=N
1i ii
i
)NoRecRel(DRecRel(D)RecRel(D)
N1)D(dadExhaustivi (32)
sum= +
=N
1i ii
i
)RecNoRel(DRecRel(D)RecRel(D)
N1(D) Precisioacuten (33)
en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)
seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos
recuperados no relevantes siendo D el conjunto de documentos
A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores
diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez
de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la
figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de
valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten
como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como
aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la
relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica
buacutesqueda
Korfhage propone dos meacutetodos distintos para calcular el promedio de la
exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los
documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada
pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo
recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la
precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir
una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]
El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto
de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se
conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo
44
EVALUACIOacuteN DE LOS SISTEMAS RI
Graacutefico E-P
0
01
02
03
04
05
06
07
08
09
1
11
0 01 02 03 04 05 06 07 08 09 1 11 12
Exhaustividad
Prec
isioacute
n
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto
con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo
325 Valores sumarios simples
Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la
recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten
media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos
en estudio y segundo porque cuando comparamos dos algoritmos podemos estar
interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto
dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que
podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad
Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de
exhaustividad
3251 Precisioacuten media al observar documentos relevantes
Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden
de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada
aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir
observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media
45
EVALUACIOacuteN DE LOS SISTEMAS RI
seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que
recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto
valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor
pobre de exhaustividad global
3252 La R-Precisioacuten
La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos
ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo
R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si
consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden
entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10
documentos recuperados Esta medida puede utilizarse para observar el comportamiento
de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede
calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple
para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de
diversas consultas puede resultar impreciso
3253 Histogramas de Precisioacuten
Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la
historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el
valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i
respectivamente podemos definir la diferencia entre ambos valores como
RPAB(i) = RPA(i) - RPB(i) (34)
Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual
rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces
indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el
algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden
representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar
raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple
inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35
46
EVALUACIOacuteN DE LOS SISTEMAS RI
-15
-1
-05
0
05
1
15
1 2 3 4 5 6 7 8 9 10
Consultas
R-P
reci
sioacuten
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza
restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]
33 Otras medidas alternativas
Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la
seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas
ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en
funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las
medidas alternativas deberiacutean cumplir las siguientes condiciones
Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de
forma separada de otros criterios como el coste
Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos
recuperados no debe afectar a estas medidas
Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores
47
EVALUACIOacuteN DE LOS SISTEMAS RI
331 Exhaustividad y precisioacuten normalizadas
Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la
lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los
resultados al usuario formando una secuencia de documentos Incluso en sistemas que no
presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente
Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los
documentos siguientesrdquo [Korfhage 1997]
Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros
documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este
usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no
relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos
no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se
le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician
el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los
documentos al usuario
En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]
[Korfhage 1997]
Primero considera un sistema ideal donde los documentos relevantes se recuperan
antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la
exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe
que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido
devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se
muestra en la figura 36 siguiente
Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de
02 un documento relevante divido entre el total de cinco documentos relevantes de la
coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la
exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa
la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en
las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al
presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la
secuencia
48
EVALUACIOacuteN DE LOS SISTEMAS RI
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor
buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]
Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal
representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la
exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de
dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es
el nuacutemero total de documentos
Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el
resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda
ideal y la peor buacutesquedardquo [Rijsbergen 1979]
332 Ratio de deslizamiento
Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos
recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal
donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se
permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la
pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma
de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos
de los documentos que hubiera devuelto el sistema ideal
En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento
por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada
fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor
de uno
49
EVALUACIOacuteN DE LOS SISTEMAS RI
A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos
que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25
82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la
columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos
documentos habriacutean sido recuperados y presentados en el orden descendente de pesos
formando la columna ldquoΣ pesos idealesrdquo de dicha tabla
La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada
ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por
ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82
Ratio de Deslizamiento
N sum pesos reales sum pesos ideales Deslizamiento
1 70 82 085
2 120 152 079
3 120 204 059
4 145 254 057
5 227 299 076
6 272 336 081
7 309 367 084
8 320 392 082
9 372 403 092
10 403 403 1
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de
pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]
333 Medida de Voiskunskii
Este autor considera que los criterios para comparar los resultados de una buacutesqueda
ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda
y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el
establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]
Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko
I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos
medidas no cumplen totalmente los criterios comentados fundamentalmente porque se
50
EVALUACIOacuteN DE LOS SISTEMAS RI
infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra
cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a
conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants
Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de
los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con
los resultados siguientes
a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son
b Se recuperan 67 documentos siendo pertinentes 40 de ellos
c Se recupera un solo documento que resulta ser pertinente
Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores
para la medida I1
Buacutesqueda E P I1
a 05 05 1
b 04 0597 0997
c 001 1 101
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]
Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener
el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute
considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se
le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute
cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos
independientemente del valor matemaacutetico que nos devuelva la foacutermula
Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para
resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de
documentos relevantes recuperados y el nuacutemero de documentos que conforman el
resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del
producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta
medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39
51
EVALUACIOacuteN DE LOS SISTEMAS RI
En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto
para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la
mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior
En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir
en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo
Buacutesqueda E P I2
a 05 05 025
b 04 0597 02388
c 001 1 001
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]
34 Resumen
En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los
sistemas de Recuperacioacuten de Informacioacuten
Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante
un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten
con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos
resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito
Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten
Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas
RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la
precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de
documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la
precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el
tema
En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar
respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se
proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad
relativa
52
EVALUACIOacuteN DE LOS SISTEMAS RI
Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque
seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la
exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos
para calcular la exhaustividad como los manuales resultan complejos y costosos En otros
casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar
solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten
Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen
los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en
cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de
precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos
considerados
Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas
de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el
cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que
conforman el resultado
53
EVALUACIOacuteN DE LOS SISTEMAS RI
54
Capiacutetulo 4
PERFILES DE USUARIO
En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de
los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten
estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a
los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus
necesidades reales de informacioacuten
La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten
NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por
ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de
creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias
maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de
realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a
sus intereses y circunstancias
41 iquestQueacute es un Perfil
Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear
los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que
describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un
ordenador y puede utilizarse como representante del objeto en las tareas computacionales
Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten
la gestioacuten de conocimiento y el anaacutelisis de datos
Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del
comportamiento de un individuo hasta el perfil del funcionamiento de un programa de
ordenador En principio se puede hacer un perfil de todo y por consiguiente las
caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado
Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de
los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas
55
PERFILES DE USUARIO
especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos
antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes
El perfil de usuario va a contener informacioacuten modelada sobre el usuario
representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema
incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute
necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto
refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de
creacioacuten y gestioacuten de los perfiles de usuario
42 Meacutetodos de creacioacuten de perfiles
Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o
manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo
impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente
En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario
escribieacutendolos en su perfil de usuario o respondiendo a formularios
Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a
partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo
a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra
un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de
informacioacuten
Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se
modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de
Inteligencia Artificial para dichas tareas
Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente
para producir perfiles maacutes precisos y comprensibles
56
PERFILES DE USUARIO
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo
colaborativo de creacioacuten de perfiles Fuente [Rui 2003]
43 Meacutetodos de adquisicioacuten de los datos del usuario
En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de
datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten
activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de
adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos
para la clasificacioacuten del usuario
431 Informacioacuten Expliacutecita
La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el
propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener
mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas
iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo
1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el
usuario a un subgrupo de usuarios predefinido
57
PERFILES DE USUARIO
Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para
autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos
sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios
para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de
cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes
orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de
entretenimiento y pueden ofrecer incentivos para que el usuario las responda
Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta
los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea
inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta
paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo
inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que
responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa
de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo
[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]
432 Reglas de Adquisicioacuten
Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se
ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario
En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones
observadas del usuario o a una interpretacioacuten de su comportamiento
Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o
independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo
encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X
entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde
se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo
Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil
implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de
describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y
otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde
se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en
tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la
aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas
58
PERFILES DE USUARIO
variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que
seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten
especiacuteficas
433 Reconocimiento del Plan
Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan
realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una
base de conocimiento de tareas para modelar las posibles acciones del usuario y las
relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos
asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre
todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las
teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos
como en [Lesh 1995]
El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que
tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se
muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en
una aplicacioacuten de gestor de mensajes
434 Estereotipos
En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre
ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario
pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos
semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de
circunstancias [Rich 1979]
En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la
informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra
un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario
Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de
activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las
presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el
usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo
[Ambrosini et al 1997]
59
PERFILES DE USUARIO
Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al
1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro
importante que determina la efectividad de este meacutetodo va a ser la calidad de los
estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto
atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado
para cada estereotipo
435 Adquisicioacuten de Datos de Utilizacioacuten
En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo
para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que
registran las acciones del usuario para obtener informacioacuten de su comportamiento son
Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa
comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la
aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de
su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia
de navegacioacuten
Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales
[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes
aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que
los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las
acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el
comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y
para realizar automaacuteticamente acciones por el usuario
Tambieacuten se han construido perfiles de usuario orientados a su comportamiento
mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de
[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten
para modelar al usuario en sistemas educacionales
44 Representacioacuten del Perfil de Usuario
Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese
modelo el perfil de usuario para que pueda ser utilizado por otros componentes del
sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como
60
PERFILES DE USUARIO
pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los
contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten
los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales
Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y
las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de
razonamiento deductivo inductivo y analoacutegico
441 Razonamiento Deductivo
La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a
lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados
en la loacutegica y el razonamiento con incertidumbre
4411 Representacioacuten e Inferencia Loacutegica
El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra
bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo
lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas
sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del
tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del
concepto en la base de conocimiento del sistema
Para representar el conocimiento del sistema sobre el dominio y el conocimiento
del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de
conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de
proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la
incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a
meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten
de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]
4412 Representacioacuten y Razonamiento con Incertidumbre
Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden
utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo
es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas
61
PERFILES DE USUARIO
Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar
conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de
conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los
usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza
recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente
de ventas [Popp y Lodel 1996]
442 Razonamiento Inductivo Aprendizaje
En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se
monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales
basadas en las observaciones
En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier
tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten
afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica
especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten
personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar
filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario
partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de
mayor o menor intereacutes para el usuario basaacutendose en su perfil
Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En
Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico
para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de
documentos
En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario
se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las
palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas
adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic
1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones
claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los
perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que
represente a un documento cada peso podraacute expresar la importancia de la palabra en tal
documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la
importancia de la palabra para el usuario
62
PERFILES DE USUARIO
443 Razonamiento por Analogiacutea
El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios
En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de
usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo
de perfiles de usuario
4431 Filtrado Basado en Grupos
En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos
problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido
puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar
en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las
caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen
sistemas que buscan los usuarios que muestran un comportamiento interactivo similar
Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en
intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el
conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en
grupos [Alspector et al 1997]
Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula
las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las
clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se
utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker
y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus
marcadores de paacuteginas o ldquobookmarksrdquo
El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar
y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En
[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este
tipo
1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica
63
PERFILES DE USUARIO
4432 Agrupacioacuten de Perfiles de Usuario
Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute
considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de
usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios
El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos
utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un
algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes
formando perfiles de grupos de usuarios
[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de
aprendizaje para determinar el contenido de los estereotipos y para construir comunidades
de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45
[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se
corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo
una categoriacutea de noticias
El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende
expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los
documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del
usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su
perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho
perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las
caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema
realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que
considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el
usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no
visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores
45 Realimentacioacuten del usuario
Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una
secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario
comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten
La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La
realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema
64
PERFILES DE USUARIO
monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En
el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita
seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina
que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es
que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace
creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo
invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir
o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo
Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos
histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el
usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por
ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario
para ir confeccionando automaacuteticamente su perfil
Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al
usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con
respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten
que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra
parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable
puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no
es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en
dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en
ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede
suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener
modelos distintos uno del otro [Rui 2003]
Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la
realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten
positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa
puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute
auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa
Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de
utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se
requiera esfuerzo alguno por parte de eacuteste
65
PERFILES DE USUARIO
46 Agentes Software y creacioacuten de perfiles
Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en
entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese
entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo
Los agentes se han utilizado ampliamente en distintos campos comerciales
industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de
forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y
presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la
colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos
agentes se basaraacuten en alguacuten modo de conocimiento del usuario
Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software
convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su
ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten
capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no
impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un
sistema
La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute
principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes
que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes
podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de
inteligencia artificial
Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]
Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de
alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan
siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para
la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso
asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica
en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona
las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario
que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del
usuario y actualizar entonces su perfil
66
PERFILES DE USUARIO
47 Modelos Estadiacutesticos
Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis
estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute
paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten
para elaborar su perfil correspondiente
Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil
para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de
eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil
de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en
paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el
comportamiento en accesos del usuario y un grafo de accesos a la Web donde se
mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que
serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de
usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de
buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario
obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el
contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un
conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas
para evaluar el intereacutes de una paacutegina para un usuario
Las presunciones empiacutericas consideradas en [Chan 1999] son
1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor
intereacutes
2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes
3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso
indicaraacute que las paacuteginas son de intereacutes
4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa
paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa
paacutegina
En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio
de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de
enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina
puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones
67
PERFILES DE USUARIO
se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo
superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten
Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado
CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para
construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de
usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que
eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un
servidor web denominado JobFinder donde se graban los registros de actividad de los
usuarios
48 Razonamiento Basado en Reglas
Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas
pasados efectuando asociaciones a lo largo de relaciones generales para encontrar
soluciones al problema presente
Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose
en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio
existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario
se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos
partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y
la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema
dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino
basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de
usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos
enlaces que de otra manera estariacutean presentes en la paacutegina
El principal problema de estos sistemas seraacute la dificultad para describir y definir las
reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil
de usuario automaacutetico
Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas
que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo
68
PERFILES DE USUARIO
sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten
por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente
sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su
objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces
ordenados de mayor a menor puntuacioacuten seguacuten su perfil
Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo
utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por
el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir
elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web
recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su
frecuencia
Se distinguen dos aspectos de las preferencias del usuario las preferencias
persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de
usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones
En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario
se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar
procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se
representaraacute mediante un vector que se construye considerando ambos tipos de
preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para
calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea
anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la
foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1
Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos
teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o
de la frecuencia del teacutermino
La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia
del coseno entre ambos
wPwPw)sim(P rrr
sdotsdot
=r
(41)
De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo
con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de
similitud
69
PERFILES DE USUARIO
410 Resumen
En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos
para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten
de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se
incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros
casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones
adquiriendo sus datos de utilizacioacuten
Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una
representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del
sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e
inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos
numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o
aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el
aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios
En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los
documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen
dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el
meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario
Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos
permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza
el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten
expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e
implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en
proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten
Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes
software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda
y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma
automaacutetica recurriendo a teacutecnicas de inteligencia artificial
Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos
anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque
analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar
soluciones al problema presente sistemas de razonamiento basado en reglas
70
PERFILES DE USUARIO
Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite
realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico
elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo
vectorial y valores de similitud basados en la medida del coseno para clasificar los
resultados de una buacutesqueda
71
PERFILES DE USUARIO
72
Capiacutetulo 5
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE
CONTENIDOS BASADO EN PERFILES
En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su
evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y
diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario
En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone
un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un
perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al
usuario seguacuten su puntuacioacuten
El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten
en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario
utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del
perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute
coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]
Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto
aplicaacutendolo a la elaboracioacuten de un agregador inteligente
51 Introduccioacuten
El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un
mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten
la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado
automaacuteticamente
Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir
su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten
que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute
compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de
dicho contenido
73
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten
seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten
disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de
las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del
sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden
darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva
informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada
uacutenicamente por el inicio y fin de la ejecucioacuten del sistema
En la figura 51 se muestra una visioacuten general de este sistema propuesto donde
puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y
que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma
de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario
Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de
retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil
Usuario
Visualizar y seleccionar noticias
World Wide Web
Perfil de Usuario
Agregador de noticias
Puntuar la informacioacuten recuperada
Actualizar perfil
Proporcionar noticias relevantes
Seleccioacuten de noticias
Figura 51 Vista general del sistema NectaRSS propuesto
52 Construccioacuten automaacutetica de un perfil de usuario basado en su
historia de navegacioacuten
En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras
palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o
evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su
historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo
74
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas
sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se
recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa
informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten
Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar
diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo
de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen
por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el
perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las
preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario
construido con la historia de navegacioacuten por titulares durante S sesiones
Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis
Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el
usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En
primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como
sigue
(51) )ww(ww ht
ht
ht
hm21
=
donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino
Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define
como sigue
ht k
w
sum =
= m
1s sh
khht
tftf
wk
(52)
donde tfhk es la frecuencia del teacutermino tk en cada titular h
Entonces definimos a Ps como
(53) )psps(psPs21 ttts =
75
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la
sesioacuten j y tk denota cada teacutermino
Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps
sum=
=j
kk
S
1h
ht
jt w
S1ps (54)
Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente
seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la
ecuacioacuten (54) ktps
El perfil de usuario P se denotaraacute tambieacuten mediante un vector
(55) )pp(pPn21 ttt=
donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino
Cada elemento se define kt
p
sum sum= =
=T
1j
S
1h
ht
jt
j
kkw
S1p (56)
siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento
Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al
teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j
Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguientes expresiones
76
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Pj+1 = a Pj + b Psj para forall sub Psj (57) kt
p
Pj+1= Pj para forall nsub Psj (58) kt
p
donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual
se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a
Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como
se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras
cada sesioacuten
hllog2
tt ep)fol(pkk
minussdot= (59)
donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]
En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea
determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula
(510) siguiente
ktp
ktp
Pj+1 = fol( Pj) para forall nsub Psj (510) kt
p
521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten
del perfil de usuario
Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute
presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la
posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica
del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten
asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al
funcionamiento del sistema propuesto
Utilizando el modelo vectorial en este caso para los titulares que posean un
resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los
77
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a
partir de los teacuterminos que aparezcan en el resumen asociado
Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen
asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr
con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar
denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)
como sigue
(511) )ww(ww hrt
hrt
hrt
hrv21
=
donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk
denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento
de whr se define como sigue hrtk
w
sum =
= v
1s shr
khrhrt
tftf
wk
(512)
donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h
Entonces definimos a Pr como
(513) )prpr(prPv21 tttr =
y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr
sum=
=j
kk
Sr
1h
hrt
jt w
Sr1pr (514)
78
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj
seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se
muestra en la ecuacioacuten (514) kt
pr
Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias
en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior
Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguiente foacutermula
Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt
p
donde a y b son constantes que satisfacen a + b = 1
53 Caacutelculo de la puntuacioacuten de los titulares
Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente
vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el
titular h y tk denota cada teacutermino con el perfil de usuario donde n es el
nuacutemero de teacuterminos distintos y tk denota cada teacutermino
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular
h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la
seccioacuten 221 de esta tesis y propuesta por [Salton 1989]
hw
h
hh
wPwP)wsim(Psdotsdot
= =sum sumsum= =
=
sdot
sdotm
1k2m
1kht
2t
m
1khtt
kk
kk
(w(p
wp
)) (516)
El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para
cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya
puntuacioacuten sea mayor
79
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular
con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez
se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de
olvido
Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes
apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo
Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo
t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo
Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute
wh= ( = 033 = 033 = 033) 1t
ps 2tps3t
ps
Ahora suponemos que se tienen los siguientes valores en el perfil de usuario
correspondientes a los teacuterminos del titular h
P= ( = 003 = 001 = 009) 1t
p2t
p3tp
La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la
medida del coseno (516) se calcularaacute de la siguiente manera
)wsim(P h =)()(
)()()(222222 090010030330330330
090330010330030330++sdot++
sdot+sdot+sdot = 079
Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil
de usuario P en este ejemplo es de 079
80
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
531 Puntuacioacuten alternativa de los titulares
Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la
medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por
[Salton 1989]
Asiacute dado el correspondiente vector caracteriacutestica del titular h
donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario
donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino
entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del
titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
hw
=)wsim(P h
sum sumsumsum
= ==
=
sdotminussdot
sdotm
1k
m
1khtt
2m
1kht
2t
m
1khtt
kkkk
kk
wp)(w)(p
wp (517)
El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar
para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten
54 Descripcioacuten general del sistema NectaRSS
Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52
y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone
un sistema de recomendacioacuten de noticias recuperadas de la Web
Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador
inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2
De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores
tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo
implementa puede encontrarse en el Anexo II
1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I
81
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de
usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia
Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten
El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella
informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin
esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando
entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute
confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada
sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten
(55) mediante la foacutermula (57)
Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula
(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten
El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la
seccioacuten 53 utilizando la foacutermula (516)
Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que
aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula
(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps
como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten
(513)
541 Caracteriacutesticas singulares del sistema
NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental
del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten
dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin
embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va
elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la
informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin
distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de
usuario resulta maacutes sencillo
Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la
informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia
reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)
82
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten
2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al
comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las
similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para
conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias
a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente
Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias
utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda
informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada
seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente
ninguna aplicacioacuten similar con estas funciones
55 Resumen
En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten
de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a
los usuarios en la tarea de encontrar la informacioacuten que demandan
NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de
usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal
usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el
sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada
Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea
un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar
cada sesioacuten con el sistema
Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para
ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten
Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada
titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino
Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su
correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del
coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton
1989]
83
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
84
Capiacutetulo 6
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA
PROPUESTO
En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar
experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza
exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea
seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha
experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para
determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el
sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las
palabras y se describen los experimentos efectuados
En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del
sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la
Correlacioacuten entre titulares y la R-Precisioacuten
61 Objetivo general del sistema y esquema de su experimentacioacuten
El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el
filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base
a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones
satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y
faacutecilmente la informacioacuten que demande
Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas
1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus
elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de
informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5
2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64
de este capiacutetulo incluyendo
85
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de
puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas
informativas del sistema
minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para
cada sesioacuten con el sistema
3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el
funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos
en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten
632 Los resultados de estos experimentos y los paraacutemetros seleccionados se
expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente
4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a
las distintas medidas calculadas y prueba de un sistema alternativo de
puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los
experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos
resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente
62 Metodologiacutea seguida
Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se
procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio
formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de
noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo
II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes
La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin
embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes
En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en
una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar
usuarios para su prueba
86
RESULTADOS DE LOS EXPERIMENTOS
Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y
se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en
formato XML1 para su posterior anaacutelisis
El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de
treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica
Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa
fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido
como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello
que todos los valores que se ofrecen como resultado de los experimentos han sido
suficientemente contrastados por este meacutetodo
Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la
base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten
asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo
selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61
ltSESIOacuteNgt
ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt
ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt
ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt
ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt
ltTitular_sesioacutengt
ltTiacutetulogtMadrid 2012ltTiacutetulogt
ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt
ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt
ltFechagt2005-05-17T091249+0100ltFechagt
ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt
ltOrden_eleccioacutengt2ltOrden_eleccioacutengt
ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt
ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt
ltErrorgt06355515025975752ltErrorgt
ltTitular_sesioacutengt
ltSESIOacuteNgt
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La
ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden
en que el usuario lo ha elegido
1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas
87
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Antes de las sesiones de prueba en cada uno de los casos considerados en los
distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin
de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan
los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener
conclusiones
63 Estrategias de experimentacioacuten
Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la
primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para
comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los
resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil
de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones
Estas fases se describen maacutes detalladamente a continuacioacuten
Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute
se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos
titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el
intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas
proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)
Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada
experimento se compararaacuten los resultados para comprobar si existen variaciones
significativas y cuaacutel valor de entre los experimentados arroja mejores resultados
En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en
las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el
sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus
correspondientes preferencias temaacuteticas como cualquier otro usuario real Una
descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en
la seccioacuten 632
Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros
determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos
usuarios reales contrastando los resultados para determinar su validez En esta fase
se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste
iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que
permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar
88
RESULTADOS DE LOS EXPERIMENTOS
desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el
sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten
se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes
detallada de los usuarios experimentales y de los experimentos correspondientes a
esta fase se encuentra en la seccioacuten 632
631 Tratamiento de las palabras
Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se
analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la
descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una
a una todas las palabras
En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o
es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar
de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso
muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]
y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a
minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es
una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o
modificando sus valores de perfil si ya estaacute contenida
El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su
inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten
se podraacute forzar al sistema para que excluya las palabras que se deseen
Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del
analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten
comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado
por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por
52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la
herramienta ispell [DATSI 2005]
2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm
89
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
632 Descripcioacuten de los experimentos
A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema
Los cuatro primeros se corresponden con la primera fase destinada a probar diversos
paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento
del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el
uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas
distintas de puntuar la informacioacuten
Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada
sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el
Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea
diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea
Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la
seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el
primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto
de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de
los mismos titulares de noticias
Experimento 1 Con Resumen ndash Sin resumen (CRS)
En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la
consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de
usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee (ESIN)
Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)
Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se
probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados
obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores
experimentados resulta maacutes beneficioso para el sistema Para este experimento el
90
RESULTADOS DE LOS EXPERIMENTOS
sistema estaraacute configurado con la mejor de las dos estrategias descritas en el
experimento CRS anterior
Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y
33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal
y como puede observarse en la figura 62
Representacioacuten del factor de olvido para distintos valores del intervalo de vida
07
075
08
085
09
095
1
105
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Intervalo de vida hl
Valo
r
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo
de vida hl
Experimento 3 Importancia Relativa de los Perfiles (IRP)
En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al
finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el
perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con
distintas importancias relativas para dichos perfiles modificando sus paraacutemetros
multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del
experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones
consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema
Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)
(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y
(a=90 b=10) abarcando uniformemente el intervalo [0 100]
91
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)
Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento
del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar
el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS
pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con
ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento
Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)
Considerando los resultados obtenidos en los cuatro experimentos anteriores se
configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten
de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios
reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en
cada una de las sesiones Al final del experimento se compararaacuten los resultados que se
hayan obtenido para cada uno de ellos para determinar si el sistema posee un
funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema
para que presente al usuario una lista aleatoria de titulares de entre los recuperados en
cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-
experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute
ldquoAZARrdquo
En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14
titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar
simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento
vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la
lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de
entre los recuperados en la sesioacuten
Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales
debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por
el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes
92
RESULTADOS DE LOS EXPERIMENTOS
proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar
estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los
titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera
sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos
los titulares recuperados
Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones
baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada
experimento
USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5
Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en
el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto
como medida alternativa en la seccioacuten 531 del capiacutetulo anterior
En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las
empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la
informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos
casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados
por puntuacioacuten para que escoja los que sean de su intereacutes
93
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
64 Medidas para la evaluacioacuten experimental del sistema
En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del
sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las
preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por
el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento
determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su
funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores
recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la
informacioacuten que maacutes le interesa
641 Tasas formadas por relaciones entre las variables observables
Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario
almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute
en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de
intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas
medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el
sistema
Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en
una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en
dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor
que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares
con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la
figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos
conjuntos como variables dependientes del sistema
El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de
las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas
para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para
ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el
apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares
que se le ofrecen al usuario o card(T)
En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los
que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el
94
RESULTADOS DE LOS EXPERIMENTOS
perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares
destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario
seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))
titulares T
titulares elegidos E(T)
titulares elegidos
destacados E(T) cap D(T)
titulares destacados D(T)
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la
seccioacuten 641
En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por
tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra
variable a considerar siendo su valor el de card(E(T))
Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir
un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal
cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se
corresponderaacute con card(E(T) cap D(T))
Si relacionamos entre si estas variables podremos definir varias tasas de valor simple
que nos ayuden a evaluar el sistema
Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten
respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como
95
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
T)T(EC P = (61)
Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la
sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares
Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada
mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como
T)T(DCR = (62)
Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de
titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al
total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones
iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del
usuario
Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con
puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT
definida como
T
)T(D)T(ECTcap
= (63)
Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con
puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los
titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede
con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa
En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los
conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del
funcionamiento del sistema
96
RESULTADOS DE LOS EXPERIMENTOS
titulares elegidos titulares
destacados
titulares elegidos
destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila
642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima
Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una
puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas
(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares
se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones
eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el
sistema
En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares
ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible
calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares
escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo
que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los
N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten
determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos
por el usuario y el valor )T(p maacuteximo se define la tasa CD como
)T(p))T(E(pC
maxD = (66)
en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados
a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al
nuacutemero de titulares escogidos por el usuario
97
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error
Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en
[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el
conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de
noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten
asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de
titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto
error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi
siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las
dos medidas siguientes
Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del
sistema Se calcularaacute seguacuten la foacutermula
N
eE
N
iisum
== 1 (67)
Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento
del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el
algoritmo Se definiraacute como
( )N
EEN
isum=
minus= 1
2
σ (68)
644 La Correlacioacuten entre titulares
En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a
ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera
anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los
titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al
seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un
subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN
representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la
siguiente medida
98
RESULTADOS DE LOS EXPERIMENTOS
Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los
titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente
escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto
mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute
el algoritmo [Hill 1995] Se definiraacute
[ ]
fc
N
iii ffcc
Nr σσ sdot
minussdotminussum= =1
)()(1
(69)
en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la
expresioacuten representa la covarianza
645 La R-Precisioacuten
Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se
generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de
puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para
ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de
titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario
entre los ofrecidos por el sistema
Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis
primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para
el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el
comportamiento del algoritmo para cada sesioacuten i del experimento
El valor de la R-Precisioacuten podraacute definirse en este caso como
))T(E(card))T(E(posR)i(RP
i
i= (610)
en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros
titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al
nuacutemero total de titulares elegidos en dicha sesioacuten
99
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
65 Resumen
Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para
verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la
presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este
sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del
sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que
realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten
Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en
el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se
seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se
realizaron diversos experimentos analizando al final de cada uno de ellos los resultados
obtenidos para valorar el funcionamiento del sistema propuesto
En la experimentacioacuten se distinguen dos fases principales la primera destinada a
determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar
el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los
cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el
comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el
mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la
informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento
adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando
las palabras vaciacuteas y contabilizando las que se vayan considerando
Despueacutes de describir los experimentos se proponen diversas tasas y medidas para
cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de
titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras
relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su
similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error
Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es
la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el
comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6
mediante un valor simple
100
Capiacutetulo 7
RESULTADOS DE LOS EXPERIMENTOS
En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten
632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos
obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que
se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto
comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las
medidas que evaluacutean su funcionamiento
En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el
experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes
opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se
presentan los resultados del experimento DIV en el que se prueba el uso de un factor de
olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el
experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil
acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS
pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos
En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU
analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el
experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten
mediante la medida del coseno y mediante la medida de Jaccard
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)
Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del
sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para
la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras
se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y
los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN
101
RESULTADOS DE LOS EXPERIMENTOS
Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y
que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que
se basa en el valor de puntuacioacuten que el sistema asigna a los titulares
Para comparar los resultados de ambos sub-experimentos en la tabla 72 se
muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones
experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten
estaacutendar en los graacuteficos de las figuras 71 72 y 73
titulares elegidos titulares destacados
titulares elegidos destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
considerados La relacioacuten se establece dividiendo la columna por la fila
Experimento CRS ndash Valores medios de las tasas calculadas Caso
CP CR CT CD
ECON 02312 06292 01572 05646
ESIN 02312 04248 01269 05192
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30
sesiones experimentales
En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos
casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares
por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba
que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la
figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a
los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no
se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en
el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el
perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con
alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras
del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en
el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72
102
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
09Va
lor
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1
000
005
010
015
020
025
Valo
r
ECON ESIN
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
103
RESULTADOS DE LOS EXPERIMENTOS
Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso
ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las
anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten
media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media
maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y
como se define en la foacutermula (64)
Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
Valo
r
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza
los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor
medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor
Para comprobar si existen diferencias significativas entre los dos tratamientos del
perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos
obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba
estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su
normalidad condicioacuten indispensable para aplicar el test de Student
Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de
00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera
104
RESULTADOS DE LOS EXPERIMENTOS
muy significativo Por lo tanto se considera que si existen diferencias significativas entre el
caso ECON y el caso ESIN seguacuten la tasa CD
Paraacutemetros ECON ESIN
Media 05646 05192
Muestra 30 30
Desviacioacuten Estaacutendar 01740 01934
P del test de Normalidad 00572 gt010
Test t-Student (2 colas) 00025
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN
destacando el valor de la prueba t -Student para la tasa CD
Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la
praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados
hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos
titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con
mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender
directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el
sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y
CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no
ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan
al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede
esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de
significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea
de intereacutes
En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de
titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las
noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema
a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una
noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto
que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil
105
RESULTADOS DE LOS EXPERIMENTOS
Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento
del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras
del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente
sus resultados
Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el
perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias
estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor
cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la
mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de
titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a
su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que
cero
Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON
respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el
funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean
diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor
estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las
noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su
historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes
experimentos
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)
En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido
foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron
30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y
33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como
puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el
sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol
Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas
consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que
en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de
hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del
experimento 1 anterior
106
RESULTADOS DE LOS EXPERIMENTOS
Los valores medios obtenidos para la tasa CD en los distintos casos considerados
despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la
figura 74 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 2 ndash Valor medio de la tasa CD
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol
04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones
experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido
SINfol
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02
03
04
05
06
07
08
Valo
r
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida
hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan
valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol
Se observa que los resultados obtenidos por la tasa CD para los distintos valores del
intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha
calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la
obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para
107
RESULTADOS DE LOS EXPERIMENTOS
comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series
de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada
uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para
aplicar la prueba t- Student
Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de
06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera
no significativo Por lo tanto se considera que no existen diferencias significativas entre la
consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten
de tal factor de olvido seguacuten la tasa CD
Paraacutemetros Factor de olvido
con hl=7
Sin factor de
olvido
Media 05681 05652
Muestra 30 30
Desviacioacuten Estaacutendar 01500 01387
P del test de Normalidad gt010 gt010
Test t-Student (2 colas) 06292
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con
intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la
prueba t -Student para la tasa CD
Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de
diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido
con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema
pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten
se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es
por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el
proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute
durante los siguientes experimentos
108
RESULTADOS DE LOS EXPERIMENTOS
73 Experimento 3 Importancia Relativa de los Perfiles (IRP)
Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el
rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil
de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)
Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro
a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil
elaborado por la sesioacuten en curso
Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros
durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)
(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)
Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la
tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea
de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de
titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el
tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los
distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la
tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)
(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)
06186 06240 06283 06306 06319 06315 06286 06223 06123
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones
experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b
En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los
casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)
La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene
ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario
despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media
para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten
auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si
existen diferencias significativas entre las distintas series de valores
109
RESULTADOS DE LOS EXPERIMENTOS
Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos
paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten
Ps y el perfil acumulado P tal y como se define en la foacutermula (515)
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP
(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040
045
050
055
060
065
070
075
080
Valo
r
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de
usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par
(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)
Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta
al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la
elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el
experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las
diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados
Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten
los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten
50 para los paraacutemetros a y b de la foacutermula (515)
Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones
experimentales con el sistema considerando el caso que denotaremos por ECON2
110
RESULTADOS DE LOS EXPERIMENTOS
cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se
utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se
muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha
observado en el experimento 1
A diferencia de los experimentos anteriores donde se obtuvieron valores medios en
este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones
para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados
obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados
middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y
ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos
cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten
Experimento 4 - Resultados para la tasa CD
Lineal (ECON2) y = 00004x + 06538
Lineal (ESIN2) y = -00027x + 06788
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los
resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de
tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable
Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes
a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la
serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la
111
RESULTADOS DE LOS EXPERIMENTOS
pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo
largo de las sesiones para este segundo caso
Estos resultados nos confirman las conclusiones obtenidas para el experimento 1
donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las
noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos
de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada
sesioacuten con el sistema
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)
En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes
usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los
resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su
adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos
usuarios
Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se
configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que
presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por
puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos
titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar
desplazamiento vertical alguno
Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30
sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el
sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el
perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del
capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras
30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes
entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-
experimento al no existir perfil de usuario alguno se ofrecen todos los titulares
Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen
en las tablas y graacuteficos de las secciones siguientes
112
RESULTADOS DE LOS EXPERIMENTOS
751 Comparacioacuten de Tasas
En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la
sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se
representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas
en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se
representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN
a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de
titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en
el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la
sesioacuten
La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el
caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como
destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute
los mismos resultados que la tasa CT para el caso ldquoORDENrdquo
Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357
CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071
CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927
CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en
los casos ldquoORDENrdquo y ldquoAZARrdquo
Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267
CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062
CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845
CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones
experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo
113
RESULTADOS DE LOS EXPERIMENTOS
Observando el graacutefico de la figura 77 donde se representan los valores obtenidos
por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78
donde se representan los valores medios calculados para dicha tasa en las 30 sesiones
experimentales vemos que para todos los usuarios se han obtenido mayores valores para el
caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso
ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso
ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir
mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el
intereacutes del usuario
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de
0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo
Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30
sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo
Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el
caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Observando el graacutefico de la figura 79 donde se representan los valores obtenidos
por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710
donde se representan los valores medios calculados para dicha tasa vemos que para todos
los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los
titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al
azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el
usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor
cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados
seguacuten el intereacutes del usuario
114
RESULTADOS DE LOS EXPERIMENTOS
Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios
Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios
21 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
USUARIOS
Valo
r
ORDEN AZAR
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
115
RESULTADOS DE LOS EXPERIMENTOS
A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los
titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los
titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el
usuario escogiese todos los titulares recomendados por el sistema De esta manera se
obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos
de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de
0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos
los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376
en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un
220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios
116
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
12
USUARIOS
Valo
r
ORDEN AZAR
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
752 Error Absoluto Medio y Coeficiente de Correlacioacuten
En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se
presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso
ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes
medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y
porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece
En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten
experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula
(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se
representan estos resultados
En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten
experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en
la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente
117
RESULTADOS DE LOS EXPERIMENTOS
Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051
σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019
r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten
entre titulares en la sesioacuten experimental 30 por 15 usuarios
Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000
005
010
015
020
025
030
035
USUARIOS
Valo
r
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y
la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior
a 015 y una Desviacioacuten Estaacutendar media inferior a 005
Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios
experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025
obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2
11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos
los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios
118
RESULTADOS DE LOS EXPERIMENTOS
es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la
conclusioacuten anterior
Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten
entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios
En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten
entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los
usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente
un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares
propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten
753 La R-Precisioacuten
Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute
al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el
caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder
calcular entonces la precisioacuten en la posicioacuten R del orden
119
RESULTADOS DE LOS EXPERIMENTOS
La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten
del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones
experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los
titulares ordenados al usuario
En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los
15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan
en la figura 713
Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
01
02
03
04
05
06
07
08
09
10
USUARIOS
Valo
r
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el
sistema La media mayor es la del usuario 11 y la menor es la del usuario 8
En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten
para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que
maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]
120
RESULTADOS DE LOS EXPERIMENTOS
del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario
ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de
0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para
la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten
media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo
Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la
R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones
experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones
experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media
para esta medida el 11
En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos
por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia
de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se
calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la
pendiente y b es la interseccioacuten
Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios
y = 00058x + 03154
y = 00132x + 05664
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30
sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una
evolucioacuten favorable de la R-Precisioacuten
121
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de
la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de
tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en
ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo
para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de
titulares
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en el
experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como
medida alternativa en la seccioacuten 531 del capiacutetulo 5
En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas
noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno
para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el
usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan
en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De
esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de
resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante
la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el
mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten
Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP
CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no
resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna
manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en
ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares
similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo
Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados
sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la
sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo
la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la
puntuacioacuten media ideal que en el caso ldquoCOSrdquo
122
RESULTADOS DE LOS EXPERIMENTOS
Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los
valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica
que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo
En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r
en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la
figura 715 se representan graacuteficamente estos datos
Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias
caso r r
COS 0989 0964
JAC 0989 0936
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30
junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo
Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC
COS media COS JAC media JAC06
07
08
09
10
11
Valo
r
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de
Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y
ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo
123
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la
sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y
ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso
ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la
Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien
puntuados por el sistema
Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones
en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento
al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de
Jaccard
En general se puede concluir que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la
calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste
experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no
de una palabra en dicho perfil de usuario
77 Resumen
En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en
los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema
propuesto y su eficacia con diversos usuarios
El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema
considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con
nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de
los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos
versiones configuradas del sistema una considerando los resuacutemenes y otra sin
considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en
concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas
mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD
que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el
objeto de determinar que efectivamente existen diferencias significativas entre las dos
alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten
de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se
mantendraacute para el resto de experimentos
124
RESULTADOS DE LOS EXPERIMENTOS
En el segundo experimento (DIV) se probaron diversos valores para el intervalo de
vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En
este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas
propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse
exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados
del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece
significativamente al sistema por lo que finalmente se desestimoacute su uso
El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores
proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten
seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los
resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes
similitudes en el comportamiento de los pares considerados experimentalmente se observoacute
la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media
aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado
El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas
en el primer experimento (CRS) pero en este caso considerando los valores que se han
determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En
este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para
los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables
cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil
de usuario confirmando por tanto las conclusiones del primer experimento
El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con
diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo
realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales
Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la
misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes
necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de
titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario
correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el
sistema configurado para que ofreciera los titulares aleatoriamente al usuario
Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten
las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de
titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la
125
RESULTADOS DE LOS EXPERIMENTOS
Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen
funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la
puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge
cada usuario
Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten
obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se
analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los
usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos
una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un
comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente
mejores ordenaciones de titulares
Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida
distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida
del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores
medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos
medidas concluyendo por tanto que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten elegido
126
Capiacutetulo 8
CONCLUSIONES
En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo
para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de
fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus
preferencias
En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de
informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos
Posteriormente se describieron los aspectos a tener en cuenta para definir y crear
perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de
usuario y las teacutecnicas de inferencia asociadas
El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la
bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer
un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un
agregador inteligente que recomienda contenidos al usuario denominado NectaRSS
Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf
descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de
titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la
medida de Jaccard
Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y
se comproboacute su validez
Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de
investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS
127
CONCLUSIONES
81 Principales Aportaciones y Conclusiones
Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten
Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de
recomendar eacutesta a un usuario seguacuten sus preferencias
Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y
confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial
de seleccioacuten de la informacioacuten ofrecida
Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para
dar la informacioacuten maacutes relevante
Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se
realizan de manera totalmente transparente al usuario
Se han evaluado diferentes estrategias y opciones para que el resultado del sistema
sea oacuteptimo
Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para
distintos usuarios heterogeacuteneos
Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las
ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para
eacuteste que un orden aleatorio
Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se
aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente
128
CONCLUSIONES
elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los
titulares desde el punto de vista del usuario
El sistema demuestra un funcionamiento adecuado para distintos usuarios
El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la
informacioacuten elegido
El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a
sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica
puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que
realmente le interesa sin tener que realizar ninguna otra accioacuten adicional
82 Liacuteneas de investigacioacuten futuras
El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de
investigacioacuten originales que se considera de intereacutes abordar
Determinar el rendimiento del sistema considerando conjuntos de palabras
encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario
Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos
que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en
la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario
Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la
suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario
Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se
mantenga un perfil para cada usuario que visite la paacutegina de los titulares de
129
CONCLUSIONES
informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la
proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de
especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo
Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten
del perfil de usuario
Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses
Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la
informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen
distintos usuarios con perfiles similares
Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a
las que el usuario haya preseleccionado
130
Bibliografiacutea y Referencias
[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive
interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 22-32
[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a
Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso
(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia
Italy Wien SpringerWienNewYork 365-376
[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and
clique-based user models for movie selection a comparative study User Modeling and User Adapted
Interaction 7(4) 279-304
[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture
for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 59-61
[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable
system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159
[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and
Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998
[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press
Addison-Wesley 1999
[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In
Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey
USA 378-385
131
BIBLIOGRAFIacuteA Y REFERENCIAS
[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated
real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 215-226
[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan
recognition User Modeling and User Adapted Interaction 5(3-4) 317-348
[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989
[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier
Science Publishers 1990
[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext
reading system User Modeling and User Adapted Interaction 4(1) 1-19
[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user
modeling systems International Journal of Human-Computer Studies 40 31-62
[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible
Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004
httpwwww3orgTR2004REC-xml11-20040204
[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of
predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on
Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52
[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM
Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT
Press
[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation
Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean
VA Nov 2000 pp 227-234
httpwwwittckueduobiwan
132
BIBLIOGRAFIacuteA Y REFERENCIAS
[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles
Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer
Science Florida Institute of Technology Melbourne Australia
httpciteseeristpsueduchan99noninvasivehtml
[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W
Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989
[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London
Library Association 1999
[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the
Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project
Cranfield (1966)
[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the
American Society for Information Science v 24 March-April 1973 p87-92
[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing
interests International Journal on Digital Libraries 2 (1) 38-53
[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing
amp Management 23 4 1987 p 249-254
[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos
(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes
[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW
The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994
httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml
[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML
Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas
Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre
de 1998
133
BIBLIOGRAFIacuteA Y REFERENCIAS
[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW
Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998
[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW
Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001
httpservidortiuibesadelaidaCIVEadecivehtm
[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval
Journal of the American Society for Information Science 51 (7) 2000 p 614-624
[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005
httpwwwfeedstercom
[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-
site management system SIGMOD Record 26(3) 4-11 1997
[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information
provision for all users including disabled and elderly people The New Review of Hypermedia and
Multimedia 4 163-188
[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego
Academic Press cop1997 XIV 365 p
[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de
Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos
Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12
Nov de 2002
[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-
Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal
In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies
Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer
Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56
134
BIBLIOGRAFIacuteA Y REFERENCIAS
[Goo 2005] Google Directory RSS News Readers Julio de 2005
httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science
Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers
[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and
heuristics Boston Kluwer Academia Publishers 1998
[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S
The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference
Brisbane Australia 1998
[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic
Publishers 1994
[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system
for supporting information providers in directing users through hyperspace Proceedings of the 3rd on
Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and
Hypermedia 147-156
[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices
in a virtual community of use In Proceedings of CHI 95 Denver CO 1995
[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a
declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-
Oriented Database (DOOD) pages 386-398 Singapore 1997
[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search
engines to query AI Magazine 18(2) 19-25 1997
[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999
httpwwww3orgTRhtml401
135
BIBLIOGRAFIacuteA Y REFERENCIAS
[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an
overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251
1996
[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web
Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th
international conference on World Wide Web 2004
[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext
client of the user modeling system BGP-MS Proceedings of the 4th International Conference on
User Modeling 99-105
[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell
system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106
[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl
J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM
40(3) 77-87
[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley
Computer Publisher 1997
[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface
integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support
ergonomic design of manually and automatically adaptable software Lawrence Erlbaum
97-125
[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW
Conference Santa Clara CA USA 1997
[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington
Virginia Information Resources 1993
[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995
136
BIBLIOGRAFIacuteA Y REFERENCIAS
[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the
14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-
1710
[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer
collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International
Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf
[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of
the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-
929
[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis
Doctoral Universitat Jaume I Castelloacuten 2002
[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva
perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la
Informacioacuten (JOTRI) 2002
[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the
ACM 37 (7) 31- 40
[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86
[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press
1993
[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la
evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de
Documentacioacuten Nordm 7 pp 153-170 2004
[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten
de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten
II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004
137
BIBLIOGRAFIacuteA Y REFERENCIAS
[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user
preferences ontologies in recommender systems In Proceedings of the 1st International Conference
on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001
[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based
inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-
282
[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D
1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91
[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive
information access to scholarly publications on the Web Artificial Intelligence Laboratory
Department of Mathematics and Computer Science 2002
[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL
Development Officer Heriot-Watt University Edinburgh UK 2003
[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering
and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996
[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel
httpwwwuninechinfoclef
[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World
Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997
[OBIWAN 1999] OBIWAN Project University of Kansas 1999
httpwwwittckueduobiwan
[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system
User Modeling and User Adapted Interaction 4 (2) 107-130
[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User
Modeling and User Adapted Interaction 4 (3) 197-226
138
BIBLIOGRAFIacuteA Y REFERENCIAS
[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C
1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay
(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-
Verlag 45-54
[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert
Identifying interesting web sites Proceedings of the 13th National Conference on Artificial
Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml
[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval
progress report Information Processing and Management 36 2000 p 155-178
[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St
Augustin Germany
[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales
assistants User Modeling and User Adapted Interaction 5(3-4) 349-370
[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993
[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea
httpwwwraees
[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online
recruitment environment Smart Media Institute University College Dublin Ireland
mayacsdepauledu~mobasheritwp01papersrafterpdf
[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search
httpwwwcsutexaseduusersmooney
[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues
and Options Workshop House subcommittee on science research and technology
Washington DC Nov 3 1976
139
BIBLIOGRAFIacuteA Y REFERENCIAS
[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354
[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second
edition 1979 httpwwwdcsglaacukKeith
[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal
of American Society for Information Science 27(3)129-46 1976
[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD
Thesis Harvard University Report ISR-10 to National Science Foundation Harvard
Computation Laboratory (1966)
[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center
Editor Dave Winer En liacutenea julio de 2005
httpblogslawharvardedutechdirectory5aggregators
[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005
httpwwwrssfeedscomreadersphp
[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for
the web Communications of the ACM 40(3) 66-73
[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L
Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001
Enero 2003
[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971
[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer
Science Series McGraw-Hill 1983
[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of
Information by-Computer Addison-Wesley 1998
140
BIBLIOGRAFIacuteA Y REFERENCIAS
[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI
NOVATICA nordm 158 pag 5-9 2002
[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation
Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp
115-152
[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive
Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling
[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler
4th Int WWW Conference 1995
[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en
Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005
httpwwwsiaeuiupmesgruposAinfo2pdf
[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example
MIT Lab Cambridge USA
[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones
sobre Literatura en Espantildeol 2003
httppeterpaneuiupmesindexhtml
[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal
of Man-Machine Studies 23 71-88
[Snow 2005] Snowball httpsnowballtartarusorg
[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of
Documentation 31(4)266-72 1975
[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information
Processing and Management 15(3)133-44 1979
141
BIBLIOGRAFIacuteA Y REFERENCIAS
[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML
Technical report Text Encoding Initiative 1996
[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist
user modeling in a complex commercial software system User Model and User-Adapted Interaction
10 (2-3) 109-146
[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic
user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings
of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien
SpringerWien NewYork 189-200
[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited
Information Processing and Management 28 4 pp 467-490 1994
[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability
and usefulness of the WWW 5th International Conference on User Modeling 5-12
[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten
sobre Estructura y Contenido 1999
[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of
the American Society for Information Science 48(2) 1997 p133-142
[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a
methodology for production coherent consistent dynamically changing models of agentrsquos competencies User
Modeling and User Adapted Interaction 5 (2) 117-150
[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the
Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss
[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley
1949
142
Anexo I Lenguajes de definicioacuten de documentos
En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la
recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos
de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute
parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a
introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de
XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el
segundo denominado Atom con un cometido muy parecido al RSS
Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan
tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los
documentos para delimitar los elementos de estructura Por una parte diferenciaremos
entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de
distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de
definicioacuten de un tipo de documento concreto es decir una instancia de SGML
SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por
iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del
mundo editorial que son los contenidos y la forma de presentar esos contenidos en este
caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el
contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML
permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un
lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene
nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este
lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en
[Herwijnen 1994]
AI1 Hypertext Markup Language
HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado
que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su
estructura y contenido
AI-1
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia
difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su
consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]
El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes
documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que
sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria
sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador
que se utilice el responsable de asegurar que el documento tenga un aspecto coherente
independientemente del tipo de maacutequina desde donde se acceda al documento De esta
manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que
facilita enormemente su manejo por cualquier persona
HTML es un lenguaje muy sencillo que permite preparar documentos Web
insertando en el texto de los mismos una serie de etiquetas o tags que controlan los
diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas
que controlan el comportamiento del documento son fragmentos de texto encerrados entre
aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan
simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten
imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento
Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas
con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]
AI12 Evolucioacuten del Lenguaje HTML
El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico
objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre
fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el
lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se
habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador
realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el
sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994
Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se
descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de
HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo
borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades
AI-2
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de
expresiones matemaacuteticas
Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten
en HTML lenguaje apropiado para elaborar de manera sencilla documentos con
posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo
tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML
No se permite que el usuario especifique su propias etiquetas o atributos para
parametrizar o cualificar semaacutenticamente sus datos
No soporta la especificacioacuten de estructuras complicadas para representar esquemas
de bases de datos o jerarquiacuteas orientadas al objeto
No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar
la validez estructural de los datos en el momento de su importacioacuten
AI2 Extensible Markup Language
Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes
de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C
creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para
desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las
aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de
construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y
directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de
estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser
utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de
2005 es la 11 [Bray 2004]
Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la
Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar
Este subconjunto diferiraacute de HTML en tres aspectos fundamentales
1 Se pueden definir nuevas etiquetas y atributos
2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de
complejidad
AI-3
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
3 Cualquier documento XML puede contener una descripcioacuten opcional de su
gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una
validacioacuten estructural
El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el
contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron
[Bray 2004]
Debiacutea ser directamente utilizable sobre Internet
Debiacutea ser compatible con una amplia variedad de aplicaciones
Debiacutea ser compatible con SGML
Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML
Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero
Los documentos XML deberiacutean ser legibles y razonablemente claros
Un disentildeo de XML deberiacutea poderse preparar raacutepidamente
El disentildeo de XML debiacutea ser formal y conciso
Los documentos XML deben ser faacuteciles de crear
AI21 Estructura de XML
Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de
otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los
empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee
normalmente reflejando el tipo de contenido que delimitan
Un ejemplo de sencillo documento XML se muestra a continuacioacuten
ltpersonagt
ltnombre_completogt
ltnombregtJuanltnombregt
ltapellidosgtPeacuterez Fernaacutendezltapellidosgt
ltnombre_completogt
lttrabajogtfontanerolttrabajogt
ltpersonagt
AI-4
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos
elementos hijos del anterior denominados nombre_completo y trabajo En un
documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo
Aunque no es estrictamente obligatorio los documentos XML deben tener una
declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la
codificacioacuten del texto del documento encoding y la autonomiacutea del documento
standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten
externa para determinar los valores apropiados de ciertas partes del documento Una
declaracioacuten ejemplo es la siguiente
ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt
Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor
adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo
un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo
ltpersona nacida=rdquo23-06-1912rdquogt
Alan Turing
ltpersonagt
AI22 Documentos XML bien-formados
Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe
cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son
Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca
final ldquoltrdquo
Los elementos pueden estar anidados pero no superpuestos
Soacutelo puede existir un elemento raiacutez
Los valores de los atributos deben ir entrecomillados
Un elemento no puede tener dos atributos con el mismo nombre
Los comentarios y las instrucciones de proceso no pueden aparecer entre las
marcas
AI-5
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI23 Especificaciones XML
Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas
especificaciones para XML destacando las siguientes
DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento
Contendraacute una definicioacuten formal de un tipo de documento y a la vez una
especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina
como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado
concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional
en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar
bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se
dice que el documento XML es vaacutelido
XML Schema Es una manera de definir tipos de documentos alternativa a DTD
resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue
especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute
fechada a junio de 20052
XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo
de los documentos escritos para XML Permite modificar el aspecto de un
documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL
Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute
definir transformaciones en forma de reglas para convertir un documento XML en
otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir
el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas
bloques de texto en las paacuteginas graacuteficos y muchos otros
Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes
particulares de un documento XML Como soporte para este objetivo principal
tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y
booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de
1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath
AI-6
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un
documento XML
Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos
XML Los enlaces podraacuten ser simples como los habituales en HTML
bidireccionales enlazando dos documentos en ambas direcciones y
multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de
documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML
AI3 Rich Site Summary
ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir
faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para
utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros
muchos tales como los blogs7 o diarios personales en la Web
Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en
una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a
una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es
accesible mediante el enlace del fichero RSS
Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF
Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que
estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una
coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos
simultaacuteneamenterdquo [Moffat 2003]
AI31 Historia y Origen de RSS
Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en
su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado
6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html
AI-7
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador
ofreciendo una forma muy simple de publicar contenidos y permitiendo a los
desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo
Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten
anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la
aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos
RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como
propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado
por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de
extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten
constantemente Generalmente los ficheros se guardan con extensioacuten RDF
RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten
basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado
de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de
su objetivo proporcionar una herramienta para publicar contenidos de una forma
raacutepida y sencilla en la Web
AI32 RSS 092
Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente
compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son
opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido
Elementos obligatorios
En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el
documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o
canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a
continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss
AI-8
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio
ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt
ltdescriptiongt -- La frase que describe el canal
Elementos opcionales
ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos
son opcionales y otros tres son requeridos
lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal
lttitlegt -- Describe la imagen
ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los
elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del
canal
Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son
nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt
contendraacute un texto relacionado con el renderizado de la imagen en HTML
ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los
agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una
uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo
ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal
ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de
contacto para cuestiones de edicioacuten
ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de
contacto si existen problemas teacutecnicos
ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal
ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en
RSS estaraacuten conformes a la especificacioacuten RFC 82215
14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs
AI-9
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal
ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato
utilizado en el fichero RSS
lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione
realimentacioacuten en forma de texto Contiene varios sub-elementos que son
requeridos
lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto
ltdescriptiongt -- Describe el area de texto donde se escribe
ltnamegt -- Nombre del objeto de texto
ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto
ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos
del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o
Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en
este elemento
ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos
de hora que representan la hora en formato GMT17 Los lectores de noticias no
leeraacuten el canal durante las horas especificadas en este elemento
15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich
AI-10
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
iquestQueacute es un iacutetem
Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben
contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno
de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute
compuesto por los siguientes elementos opcionales
lttitlegt Es el tiacutetulo de la noticia
ltlinkgt Direccioacuten Web que apunta a la noticia
ltdescriptiongt Es el resumen de la noticia
Nuevos elementos respecto a la versioacuten RSS 091
ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal
RSS de donde proviene el item se deriva del tiacutetulo
ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto
adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra
ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten
el estaacutendar MIME18
ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo
opcional domain que identificaraacute la categoriacutea en una taxonomiacutea
ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un
servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal
18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje
AI-11
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 092
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un
canal y un elemento item
ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt
ltrss version=092gt
ltchannelgt
lttitlegtELPAISeslttitlegt
ltlinkgthttpwwwelpaisesltlinkgt
ltdescriptiongtRSS de ELPAISesltdescriptiongt
ltlanguagegtes-esltlanguagegt
ltitemgt
lttitlegtEspantildea consigue sus primeros oros en los Juegos del
Mediterraacuteneolttitlegt
ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt
ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una
exitosa jornada de competicioacuten donde sumoacute un total de 23
medallasltdescriptiongt
ltitemgt
ltchannelgt
ltrssgt
En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten
de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y
el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y
descripcioacuten correspondientes
AI-12
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI33 RSS 20
Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible
con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20
vaacutelido
Nuevos elementos respecto a la versioacuten anterior
Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan
definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han
incorporado los siguientes
ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la
direccioacuten Web donde se encuentran los comentarios acerca del item
ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el
programa que ha generado el archivo RSS
ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la
direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la
persona que ha escrito el artiacuteculo
ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de
vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el
canal en memoria antes de ser refrescado
ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que
indica cuaacutendo fue publicado el item
ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador
uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el
item es nuevo o no
AI-13
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 20
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un
canal y dos elementos item
ltxml version=10 encoding=utf-8 gt
ltrss version=20gt
ltchannelgt
lttitlegtEl Blog Salmoacutenlttitlegt
ltlinkgthttpwwwelblogsalmoncomltlinkgt
ltdescriptiongtEl Blog Salmoacutenltdescriptiongt
ltcopyrightgtCopyright 2005ltcopyrightgt
ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt
ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt
ltdocsgthttpblogslawharvardedutechrssltdocsgt
ltitemgt
lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt
ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt
ltitemgt
ltitemgt
lttitlegtVuelven las nacionalizacioneslttitlegt
ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt
ltitemgt
ltchannelgt
ltrssgt
Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS
tales como ltgeneratorgt y ltpubDategt
AI-14
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI4 Atom
Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten
de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la
distribucioacuten de contenidos y noticias de sitios web
Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares
similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de
muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en
proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom
La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005
Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda
raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener
maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS
Un ejemplo de Atom 10
Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una
sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de
RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt
ltxml version=10 encoding=utf-8gt
ltfeed xmlns=httpwwww3org2005Atomgt
lttitlegtEjemplo de entradalttitlegt
ltlink href=httpexampleorggt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltauthorgt
ltnamegtJuan Jltnamegt
ltauthorgt
ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt
ltentrygt
lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt
ltlink href=httpexampleorg20031213atom03gt
ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltsummarygtTexto del resumenltsummarygt
ltentrygt
ltfeedgt
19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html
AI-15
Anexo II Un Agregador Inteligente
Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos
disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa
desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el
mismo nombre por simplicidad
La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones
que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o
usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y
seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen
es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como
cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al
usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se
muestra el aspecto usual del programa
Figura AII1 Aspecto principal del programa NectaRSS
AII-1
UN AGREGADOR INTELIGENTE
Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea
acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute
otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya
subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre
seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos
tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS
Para efectuar los experimentos se dotoacute al programa de un modo de trabajo
especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni
destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha
considerado para no condicionar en modo alguno las decisiones del usuario experimental a
la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura
AII3
AII-2
UN AGREGADOR INTELIGENTE
Figura AII3 Aspecto del programa NectaRSS en modo experimento
Adicionalmente el programa genera una paacutegina web con las recomendaciones de
titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin
httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del
diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los
visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute
personalizado para un usuario concreto puede resultar interesante a personas que
compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en
la figura AII4
AII-3
UN AGREGADOR INTELIGENTE
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el
programa NectaRSS
A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la
evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del
programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los
experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos
resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores
numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo
informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad
AII-4
UN AGREGADOR INTELIGENTE
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema
Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web
Diario El Mundo (httpabraldesnetfeedselmundoxml)
Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)
Barrapunto (httpbackendsbarrapuntocombarrapuntorss)
Diario Marca (httpabraldesnetfeedsmarcaxml)
Kriptoacutepolis (httpwwwkriptopolisorgrss)
eCuaderno (httpwwwecuadernocomindexxml)
xataka (httpxatakacomesindexxml)
alzadoorg (httpwwwalzadoorgxmlalzadoxml)
Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)
tintachina (httpwwwtintachinacomindexxml)
Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)
Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)
TIME Magazine (httprsstimecomwebtimersstopindexxml)
CNET reviews (httpreviewscnetcom4924-5_7-0xml)
Artnovela (httpwwwartnovelacomarbackendphp)
Blogdecine (httpwwwblogdecinecomindexxml)
Stardustcf (httpwwwstardustcfcomrdfasp)
Una furtiva mirada (httpfurtivosbloxuscomrdfxml)
Pedro Jorge (httpwwwpjorgecomrss)
Atalaya (httpatalayablogaliacomrdfxml)
Malos Pensamientos (httpmpblogaliacomrdfxml)
Libryscom (httpwwwlibryscomfeedrss)
El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)
AII-5
D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad
y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del
Departamento de Arquitectura y Tecnologiacutea de la Universidad de
Granada
CERTIFICAN
Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para
la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por
D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el
Departamento de Arquitectura y Tecnologiacutea de Computadores de la
Universidad de Granada para optar al grado de Doctor en Informaacutetica
Granada a 30 de septiembre de 2005
Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso
Director de la Tesis Director de la Tesis
A mi hijo
i
ii
Agradecimientos
Mi respeto y agradecimiento profundo a todas las personas que me han
ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis
Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su
paciencia y dedicacioacuten
iii
iv
Resumen
En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten
denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los
intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las
preferencias del usuario evitando la realimentacioacuten expliacutecita
Se realiza una revisioacuten de todos los conceptos relacionados con el sistema
mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el
problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente
Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la
implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos
demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses
de cada individuo
Abstract
In this thesis a new system called NectaRSS for information retrieval and filtering is
presented The system recommends information to a user based on his past choices The
method automatically accomplishes the task of user preferences acquisition avoiding
explicit feedback
In this work a review of all the concepts related to the system is first performed
showing different approaches to the problem of user profile construction emphasizing
web information retrieval systems where NectaRSS will be initially applied
The efficiency of the proposed method is proved applying it to the implementation
of an intelligent aggregator used by different and heterogeneous users proving its ability to
offer the information personalized according to each individualrsquos interests
v
vi
IacuteNDICE GENERAL
Agradecimientosiii
Resumen v
IacuteNDICE GENERAL vii
IacuteNDICE DE FIGURAS xi
IacuteNDICE DE TABLAS xv
1 INTRODUCCIOacuteN 1
11 Organizacioacuten de la tesis 2
2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5
21 Introduccioacuten5
22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7
2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13
222 El Modelo Probabiliacutestico 17
23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20
2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26
Navegadores 26 Agregadores de contenidos 27
233 Sistemas de recomendacioacuten 29
24 Resumen 31
3 EVALUACIOacuteN DE LOS SISTEMAS RI 33
31 Relevancia y Pertinencia 33
32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41
vii
IacuteNDICE GENERAL
324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45
3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46
33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50
34 Resumen 52
4 PERFILES DE USUARIO 55
41 iquestQueacute es un Perfil 55
42 Meacutetodos de creacioacuten de perfiles 56
43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60
44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61
4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61
442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63
4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64
45 Realimentacioacuten del usuario 64
46 Agentes Software y creacioacuten de perfiles 66
47 Modelos Estadiacutesticos 67
48 Razonamiento Basado en Reglas 68
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario
automaacutetico 68
410 Resumen 70
viii
IacuteNDICE GENERAL
5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS
BASADO EN PERFILES 73
51 Introduccioacuten73
52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de
navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario
77
53 Caacutelculo de la puntuacioacuten de los titulares79
531 Puntuacioacuten alternativa de los titulares 81
54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82
55 Resumen 83
6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85
61 Objetivo general del sistema y esquema de su experimentacioacuten 85
62 Metodologiacutea seguida 86
63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90
64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99
65 Resumen 100
7 RESULTADOS DE LOS EXPERIMENTOS101
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106
73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113
ix
IacuteNDICE GENERAL
752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122
77 Resumen 124
8 CONCLUSIONES 127
81 Principales Aportaciones y Conclusiones 128
82 Liacuteneas de investigacioacuten futuras 129
Bibliografiacutea y Referencias131
Anexo I Lenguajes de definicioacuten de documentos AI1
AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2
AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6
AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13
AI4 Atom AI15
Anexo II Un Agregador Inteligente AII1
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5
x
IacuteNDICE DE FIGURAS
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57
Figura 51 Vista general del sistema NectaRSS propuesto 74
xi
IacuteNDICE DE FIGURAS
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116
xii
IacuteNDICE DE TABLAS
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123
Figura AII1 Aspecto principal del programa NectaRSS AII1
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2
Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4
xiii
IacuteNDICE DE TABLAS
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105
xv
IacuteNDICE DE TABLAS
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123
xvi
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA
PRESENTE MEMORIA
RI Recuperacioacuten de Informacioacuten
SRI Sistema de Recuperacioacuten de Informacioacuten
E-P Par Exhaustividad-Precisioacuten
P Perfil de usuario
Ps Perfil de sesioacuten
Pr Perfil de resumen
T Conjunto de titulares
E(T) Conjunto de titulares elegidos
D(T) Conjunto de titulares destacados
CRS Con Resumen ndash Sin resumen
DIV Determinacioacuten del Intervalo de Vida
IRP Importancia Relativa de los Perfiles
CRS2 Con Resumen ndash Sin resumen (2)1
PAU Prueba del Algoritmo con diferentes Usuarios
PPA Probar Puntuacioacuten Alternativa
tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di
tfhk Frecuencia del teacutermino tk en el titular h
wij Relevancia del teacutermino tj en el documento di
wh Vector caracteriacutestica del titular h
sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh
fol Factor de olvido
CP Tasa que mide el porcentaje de titulares elegidos
1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros
xvii
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS
CR Tasa que mide el porcentaje de titulares ofrecidos destacados
CT Tasa que mide el porcentaje de titulares elegidos destacados
CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la
puntuacioacuten media maacutexima
E Error Absoluto Medio
σ Desviacioacuten Estaacutendar del Error
r Coeficiente de Correlacioacuten entre titulares
RP(i) R-Precisioacuten en la sesioacuten i
xviii
Capiacutetulo 1
INTRODUCCIOacuteN
En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente
indispensable y en la principal fuente de informacioacuten para una parte importante de la
poblacioacuten del mundo desarrollado
Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de
2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se
tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o
intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo
tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de
fuentes muy variadas
En general dada la gran cantidad de fuentes de informacioacuten disponibles
actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de
un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente
inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada
hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten
ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que
una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos
maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que
pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten
ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma
automaacutetica
Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de
informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias
que denominaremos NectaRSS
1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom
1
INTRODUCCIOacuteN
Como segundo objetivo buscaremos una forma de obtener las preferencias del
usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en
el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten
incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya
realizando tal usuario
Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear
ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes
estrategias y opciones para que el resultado sea oacuteptimo
11 Organizacioacuten de la tesis
Esta tesis se organiza de la forma siguiente
El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y
de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial
de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de
recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la
relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado
automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como
sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten
especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho
contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se
fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de
la Web en particular y en conocer los modelos tiacutepicos para representar los
documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute
el modelo vectorial
En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas
de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la
pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten
destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad
principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar
la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se
tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas
alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la
2
INTRODUCCIOacuteN
medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las
teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario
para aplicar dichas teacutecnicas al sistema experimental NectaRSS
El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes
se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas
para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de
adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la
adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil
de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de
razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la
realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil
correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas
utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los
modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o
ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas
Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web
basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro
trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de
usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las
preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para
representar las preferencias de eacuteste
En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y
recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador
inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema
comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil
de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la
utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute
coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del
coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema
propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la
base teoacuterica que subyace en dicho sistema
El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se
expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea
3
INTRODUCCIOacuteN
seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la
experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que
se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del
sistema en base a las variables consideradas en los experimentos distinguiendo
distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten
referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de
informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el
usuario respecto a la que le ofrece el sistema empleando para ello medidas como el
Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la
R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute
medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental
propuesto NectaRSS
En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados
obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer
conclusiones que permitan determinar diversos paraacutemetros del sistema y para
evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando
su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la
efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas
que evaluacutean su funcionamiento
Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales
aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido
y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la
tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir
de la investigacioacuten con NectaRSS
4
Capiacutetulo 2
LOS SISTEMAS DE RECUPERACIOacuteN DE
INFORMACIOacuteN
En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado
en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI
o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos
modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten
de informacioacuten en la Web y los sistemas de recomendacioacuten
El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis
NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea
de intereacutes de los usuarios analizando para ello el contenido de los documentos se
realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de
cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se
realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las
preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta
manera se podraacute recomendar la informacioacuten a cada usuario
21 Introduccioacuten
La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una
determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow
1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es
traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada
por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]
Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos
relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman
1998]
Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por
Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten
5
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza
define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de
informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos
relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo
[Baeza 1999]
Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno
recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se
diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los
gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un
conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que
determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la
peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de
indizacioacutenrdquo
Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel
conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]
22 Modelos para la recuperacioacuten de informacioacuten
Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se
obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar
la relevancia de un documento respecto a una consulta los meacutetodos para establecer la
importancia u orden de los documentos de salida y los mecanismos que permiten una
realimentacioacuten por parte del usuario para mejorar la consulta
Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por
[Dominich 2000] que se muestra en la tabla 21
Partiendo de la tarea inicial que realiza el usuario es posible realizar una
clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de
informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de
documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se
introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de
estructura guiada o de hipertexto seguacuten puede verse en la tabla 22
6
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Modelo Descripcioacuten
Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial
Alternativos Basados en la Loacutegica Fuzzy
Loacutegicos Basados en la Loacutegica Formal
Basados en la
interactividad
Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de
retroalimentacioacuten por relevancia
Basados en la
Inteligencia Artificial
Redes neuronales bases de conocimiento algoritmos geneacuteticos y
procesamiento de lenguaje natural
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente
[Dominich2000]
Vista loacutegica de los documentos
Teacuterminos iacutendice Texto Completo Texto Completo +
Estructura
Recuperacioacuten Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Estructurados
Mod
alida
d
Navegacioacuten Estructura plana Estructura plana
Hipertexto
Estructura guiada
Hipertexto
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la
modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]
221 El Modelo Vectorial
Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el
modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada
documento estaba representado por un vector de teacuterminos y cada componente del vector
representaba el peso wij del teacutermino tj presente en el documento di De esta manera la
representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)
donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento
di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino
Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en
funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una
coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera
a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21
7
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t1 t2 t3 hellip tj hellip tm
d1 w11 w12 w13 hellip w1j hellip w1m
d2 w21 w22 w23 hellip w2i hellip w2m
di wi1 wi2 wi3 hellip wij hellip wim
dn wn1 wn2 wn3 hellip wnj hellip wnm
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]
Una consulta podraacute representarse de igual misma manera que un documento
asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia
de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)
En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos
tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di
dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj
A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten
wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento
Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos
Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por
[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y
su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten
mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las
palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e
idf representa la frecuencia inversa del documento
8
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre
dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22
[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los
sistemas RI vectoriales
Medida de Similitud Modelo Vectorial
Producto escalar sum=sdot
m
i ii YX1
Coeficiente de Dice sum sum
sum= =
=
+
sdotsdotm
i
m
i ii
m
i ii
YX
YX
1 122
12
Coeficiente del coseno sum sumsum= =
=
sdot
sdotm
i
m
i ii
m
i ii
YX
YX
1 122
1
Coeficiente de Jaccard sumsum sum
sum== =
=
sdotminus+
sdotm
i iim
i
m
i ii
m
i ii
YXYX
YX
11 122
1
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]
Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno
mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten
como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la
medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de
teacuterminos como
sum sumsum
= =
=
sdot
sdot=
sdotsdot
=m
1j
m
1j2kj
2ij
m
1j kjij
ki
kiki
ww
ww
qdqd)qsim(d rrrr
(21)
Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede
observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una
consulta q respecto a los ejes t1 t2 y t3
9
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t3
t1
t2
d1 = 2t1+ 3t2 + 5t3
d2 = 3t1 + 7t2 + 1t3
q = 0t1 + 0t2 + 2t3
7
32
5
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo
vectorial Fuente [Raymond 2005]
El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se
efectuaraacute como sigue
810)400()2594(
52)( 1 =++sdot++
sdot=qdsim
130)400()1499(
12)( 2 =++sdot++
sdot=qdsim
teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)
De los resultados se deduce que el documento d1 es bastante maacutes similar a la
consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que
representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que
representa a d2 y el vector que representa a q tal y como puede verse en la figura 24
10
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
θ2
t3
t1
t2
d1
d2
q
θ1
θ2
t3
t1
t2
d1
d2
q
θ1
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la
consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]
Al contar con una medida de similitud como la del coseno entre cada documento y
una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los
documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)
sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no
exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente
de similitud
2211 Realimentacioacuten de la Relevancia
Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un
juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta
informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta
A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia
Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de
documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de
este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con
los documentos identificados previamente como relevantes y al mismo tiempo que sea
menos similar a los documentos marcados como poco relevantes por el usuario De esta
manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos
documentos irrelevantes que las consultas previamente formuladas
11
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
La reformulacioacuten de consultas se basa en las dos operaciones complementarias
siguientes
Los teacuterminos que aparecen en los documentos identificados previamente como
relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso
se incrementaraacute por un factor si ya se encontraban en dicho vector
Los teacuterminos que aparecen en los documentos previamente identificados como
no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso
seraacute reducido
Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como
se requiera para mejorar el resultado de la consulta
2212 Agrupacioacuten o ldquoclusteringrdquo de documentos
La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un
documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre
pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre
ellos puede definirse como
sum sumsum
= =
=
sdot
sdot=
sdot
sdot=
m
k
m
k jkik
m
k jkik
ji
jiji
ww
ww
dd
ddddsim
1 122
1)( rr
rr
(22)
Si determinamos la similitud entre pares de documentos se podraacute construir un
agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un
representante de esa clase denominado centroide
Dado un conjunto de m documentos que constituyen una clase p el centroide
Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los
documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p
puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de
documentos en la clase p
m
wc
m
1i ikpk
sum== (23)
12
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
De esta manera al organizar los documentos en clases la buacutesqueda de un
documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los
centroides de cada clase calculando los correspondientes coeficientes de similitud Luego
los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se
compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos
que resulten similares a la consulta
Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada
una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones
entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales
2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos
La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso
de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se
determinan los teacuterminos representativos del contenido de un documento y segundo se
asigna a cada teacutermino un peso o valor que refleje su importancia como representante del
contenido del documento
La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos
que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el
resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa
la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes
profundo
La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la
frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la
importancia de ese teacutermino como representante del contenido del documento Si
ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de
aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y
como enuncia la ley de Zipf en [Zipf 1949]
zordenfrecuencia asympsdot (24)
Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en
el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada
por el suyo correspondiente
13
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino
basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los
siguientes pasos
1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino
tj en cada documento di tfij
2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten
completa sumando sus frecuencias en los n documentos
sum==
n
1i ijj tftf_tot
3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas
que tengan un valor superior a un umbral dado para excluir las palabras
muy frecuentes
4 Del mismo modo se eliminan las palabras poco frecuentes
5 Las palabras restantes con una frecuencia media se utilizaraacuten para
caracterizar los documentos indexados
Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que
establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de
aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de
resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems
relevantes [Vegas 1999]
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]
14
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir
peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes
puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales
correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto
nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto
y su sustitucioacuten por frecuencias relativas mediante diversas estrategias
La Frecuencia de Documento Inversa Consiste en asumir que la importancia del
teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada
documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se
encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del
teacutermino tj en el documento di como
wij = tfij dfi (25)
El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso
de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de
documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)
para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud
generan valores entre 0 para documentos sin similitud y 1 para documentos
completamente iguales
Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se
puede calcular una similitud media para la coleccioacuten
sumsum= =
=n
1i
n
1jji )dsim(dcsim con i ne j (26)
donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una
medida de la densidad del espacio de documentos el grado en que los documentos se
agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim
tendriacutea el valor c n(n - 1) = 1
15
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para calcular de manera maacutes eficiente la densidad del espacio de documentos se
puede obtener un documento medio d como centroide cuyos teacuterminos se supone que
poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se
definiraacute como
sum=
=n
1iijj tf
n1tf (27)
En este punto se calcularaacute la densidad del espacio de documentos como la suma de
las similitudes de cada documento con respecto al centroide con la siguiente foacutermula
menos costosa que la (26)
sum=
=n
1ii )dd(simcsim (28)
Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los
documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en
este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una
distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos
los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de
documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se
asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio
de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos
documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre
documentos
Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como
simsimdv jj minus= (29)
Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten
ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que
16
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la
lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar
en tres categoriacuteas seguacuten su valor de discriminacioacuten
Buenos discriminadores con un valor dvj positivo que al ser considerados en la
indexacioacuten decrementan la densidad del espacio
Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o
adicioacuten no variacutea la similitud entre documentos
Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los
documentos
Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo
para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de
discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos
con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su
consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede
afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de
teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con
poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en
la indexacioacuten coincidiendo con los de frecuencia intermedia
Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la
frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de
discriminacioacuten
wij = tfij dvj (210)
222 El Modelo Probabiliacutestico
Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de
una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo
sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la
distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de
17
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la
relevancia para automatizar el ajuste del valor de sus paraacutemetros
La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los
teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial
La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en
la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los
documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de
los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada
de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la
coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero
de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que
incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado
de sumar las filas y columnas correspondientes
doc relevantes doc no relevantes
t isin doc r n - r n
t notin doc R - r N ndash n ndash R + r N - n
R N - R N
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]
Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck
Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino
basaacutendose en los resultados de una consulta previa
)(
)(log)(1
NnRr
tw = (211)
)(
)(log)(2
RNrn
Rr
tw
minusminus
= (212)
18
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
)(
)(log)(3
nNn
rRr
tw
minus
minus= (213)
)(
)(log)(4
rRnNrnrR
r
tw
+minusminusminusminus= (214)
Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores
destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de
experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)
proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)
23 La Web como sistema de recuperacioacuten de informacioacuten
Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para
intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto
y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la
informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era
evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el
acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han
convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad
de establecer viacutenculos entre los documentos
La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema
suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de
tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente
impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces
permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores
permitiendo asimismo almacenar referencias entre documentosrdquo
Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir
ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular
No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se
1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]
19
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior
crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres
antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se
hiciera apremiante
Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se
precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado
Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten
como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes
para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la
Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos
231 Meacutetodos de recuperacioacuten de informacioacuten en la Web
Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI
tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos
almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de
recuperacioacuten de informacioacuten en la Web
La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la
configuran como un entorno singular y diferente de los claacutesicos Algunas de estas
caracteriacutesticas son las siguientesrdquo [Delgado 2001]
Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes
de 8000 millones de paacuteginas web indizadas por el buscador Google
Heterogeneidad de las publicaciones en cuanto a
o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas
personales y comerciales
o Tipos de datos las paacuteginas web pueden contener texto simple y elementos
multimedia Ademaacutes admiten muchos formatos
o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y
aunque existen unas especificaciones de dicho lenguaje publicadas por el
2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I
20
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que
los navegadores son muy permisivos respecto a la sintaxis de los
documentos Esto dificulta su lectura e indizacioacuten mediante un programa
informaacutetico
o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el
autor o su fecha de publicacioacuten datos muy importantes en las referencias
bibliograacuteficas
o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e
instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad
cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores
tipograacuteficos
o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la
estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de
los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de
texto que cabe en la pantalla sin realizar desplazamientos con documentos
completos con el desarrollo de una idea Un documento puede contener
una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener
resuacutemenes o extractos de varios documentos
Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo
para cualquiera de los millones de internautas
Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como
resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo
de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian
totalmente de contenido manteniendo la misma URL
Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas
como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que
por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor
3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red
21
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles
mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra
ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la
diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su
organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario
determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo
[Delgado 2001]
2311 Herramientas de buacutesqueda en la Web
Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web
ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los
documentos existentes en la globalidad de la Web y permiten localizar informacioacuten
mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que
clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus
secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten
de su estructura hipertextualrdquo [Baeza 1999]
Motores de Buacutesqueda o Buscadores
Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y
localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea
a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea
diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un
rastreo recursivo de los documentos que se referencian [Delgado 2001]
Se puede observar el tamantildeo de la base de datos de los principales buscadores y su
evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6
5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom
22
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003
GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos
desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea
Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten
mediante un formulario Este puede consistir desde una simple caja donde teclear las
palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un
mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la
posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a
veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML
por tipo de fuente por aacuterea geograacutefica o dominio y por idioma
Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten
criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de
la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas
Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus
procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos
recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad
por lo que podemos encontrarnos con muchos resultados poco uacutetiles
Directorios
Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una
estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden
23
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey
Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary
of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en
algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten
estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten
para los usuarios asiduos de bibliotecas familiarizados con tales esquemas
En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad
formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio
Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada
Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la
estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario
puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten
adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta
Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que
elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar
globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la
estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea
en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos
existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y
clasificacioacuten de los documentos
Multibuscadores
Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta
dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces
recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler
[Selberg 1995] y SavvySearch [Howe 1997]
Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la
posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de
forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias
individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los
que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los
resultados de forma concatenada es decir para cada motor interrogado se presenta una lista
24
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
de los resultados obtenidos y otros que permiten obtener los resultados de forma
integrada eliminando los duplicados e indicando para cada resultado queacute buscador o
buscadores lo han proporcionadordquo
Buacutesquedas aprovechando la estructura hipertextual de la Web
Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo
utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo
mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software
La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de
enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo
podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una
imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para
posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes
importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y
los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para
representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL
[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]
La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de
texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La
principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en
el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute
utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada
para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de
que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la
buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con
ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las
paacuteginas ldquovecinasrdquo
Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica
en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes
heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en
cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados
recuperados [Baeza 1999]
25
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
232 Navegando por la informacioacuten de la Web
Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto
sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la
Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web
Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es
utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros
programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las
principales caracteriacutesticas de estos programas
Navegadores
Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario
recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a
traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea
Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de
viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o
enlaces
La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de
documentos de texto posiblemente con recursos multimedia incrustados Tales
documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que
enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado
con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en
cualquier ordenador conectado a Internet se llama navegacioacuten
El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de
1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en
determinados equipos de trabajo
El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para
distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape
Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad
7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas
26
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los
navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos
antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada
vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape
Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el
proyecto Mozilla
A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla
que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador
maacutes ligero que su hermano mayor
Agregadores de contenidos
Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas
paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo
RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta
manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas
fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para
obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta
Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]
[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una
parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes
para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas
fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar
alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten
aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el
usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de
presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la
figura 28
9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I
27
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom
Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que
proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de
informacioacuten con muacuteltiples opciones de personalizacioacuten
Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles
en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de
2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear
subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan
parcialmente el problema automatizando las consultas y aglutinando todos los contenidos
recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De
esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten
interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o
cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello
en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten
de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema
puntuacutee como interesante en base a sus intereses particulares
11 httpmyfeedstercomloginphp
28
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador
inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus
intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia
de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido
caracteriacutesticas que poseen lenguajes del tipo RSS o Atom
233 Sistemas de recomendacioacuten
En Internet existe una gran cantidad de sitios especializados que ofertan millones de
productos y servicios para su consumo Eacuteste hecho puede resultar un importante
inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones
existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun
sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo
servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a
sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un
proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos
relevantes para cada usuario en concretordquo [Serradilla 2005]
Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno
interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden
albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran
cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer
et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en
tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de
recomendacioacuten y al resto de aspectos del disentildeo
Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en
agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la
vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una
arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]
Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que
recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de
los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los
usuarios se representan como vectores en los que cada componente contendraacute la
valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este
29
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre
amigos
En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un
weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta
empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo
atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera
un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de
encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog
En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar
sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten
persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el
filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web
especializado
Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a
sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada
usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede
suministrar la informacioacuten clasificada individualmente proporcionando un orden
personalizado de conceptos para navegar por la Web El sistema se construye utilizando las
caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN
[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma
jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27
[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep
para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del
usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de
aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica
Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este
sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se
clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del
comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de
informacioacuten recomendado por el sistema
12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad
30
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente
httpwwwittckueduobiwan
24 Resumen
En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de
informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten
Se han expuesto varias propuestas de clasificacioacuten de los modelos para la
recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial
y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la
proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los
documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la
similitud entre documentos y consultas destacando la medida de similitud del coseno
ampliamente utilizada
Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario
para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos
para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre
pares de documentos
31
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para construir los vectores asociados a los documentos se necesita un proceso de
indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos
teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf
Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en
un documento por frecuencias relativas como la frecuencia de documento inversa o el
valor de discriminacioacuten
El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los
pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los
valores de una tabla de contingencias
Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten
de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar
meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda
de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros
sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando
lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software
Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo
disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la
informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes
para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al
comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones
electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques
Por uacuteltimo se han comentado los agregadores de contenidos que recogen
informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas
paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de
marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades
de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos
deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario
La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de
recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten
para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el
sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos
utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una
especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos
32
Capiacutetulo 3
EVALUACIOacuteN DE LOS SISTEMAS RI
Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada
expresamente a establecer medidas para valorar su efectividad Existen evaluaciones
basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer
conjunto de medidas alternativas que evitan realizar juicios de relevancia
Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema
NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los
sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para
posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la
relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para
comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de
medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de
deslizamiento y la medida de Voiskunskii
31 Relevancia y Pertinencia
Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en
gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten
[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el
teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo
Podemos entender entonces que un documento recuperado se consideraraacute relevante
cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad
de informacioacuten del usuario
Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir
problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse
como relevante o no
El mismo documento puede ser considerado como relevante por una persona e
irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas
33
EVALUACIOacuteN DE LOS SISTEMAS RI
Incluso el mismo documento puede resultar relevante o no a la misma persona en
momentos diferentes [Lancaster 1993]
Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un
documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que
explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel
concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser
explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]
Es posible que los documentos resulten relevantes en alguno de sus apartados con
una materia determinada pero no en el resto de sus contenidos Esta relevancia
parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute
adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua
en lugar de una funcioacuten binaria
Estos problemas condicionan la viabilidad de la relevancia como criterio en la
evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la
ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un
usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener
problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para
decidir si un documento le resulta uacutetil o no
Lancaster considera que la relevancia de un documento estaraacute relacionada con la
satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos
contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra
ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de
relacionar los contenidos de un documento con un tema determinado y pertinencia se
relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de
informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de
documentos recuperados se puede definir como el subconjunto de documentos apropiado
para la necesidad de informacioacuten del usuariordquo [Salton 1983]
Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo
como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces
decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno
proporcionaacutendole informacioacuten para alguacuten propoacutesito
Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta
34
EVALUACIOacuteN DE LOS SISTEMAS RI
manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto
de vista del usuario que realiza la operacioacuten de recuperar informacioacuten
32 Meacutetodos tradicionales de evaluacioacuten de SRI
La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos
puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el
acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o
no del contenido
Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo
de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et
al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten
la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la
exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son
faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que
mediraacuten verdaderamente la efectividad del sistema
Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas
divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el
tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y
la presentacioacuten [Chowdhury 1999]
Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre
el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas
en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del
resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes
Medidas basadas en la Relevancia
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos relevantes
Promedio de la
efectividad E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente
[Meadow1993]
35
EVALUACIOacuteN DE LOS SISTEMAS RI
Medidas basadas en el Proceso
Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el
grado de solapamiento con otras relacionadas
Contenido Tipo de documentos de la base de datos temaacutetica de los
documentos frecuencia de actualizacioacuten
Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o
precisa intermediacioacuten
Errores en el establecimiento de la
consulta
Media de errores sintaacutecticos en la escritura de la
buacutesqueda que propician la recuperacioacuten de conjuntos
vaciacuteos y erroacuteneos
Tiempo medio de realizacioacuten de la
buacutesqueda
Tiempo medio de realizacioacuten de una estrategia de
buacutesqueda
Dificultad en la realizacioacuten de la
buacutesqueda
Problemas que los usuarios inexpertos se pueden
encontrar
Nuacutemero de comandos precisos para una
buacutesqueda
Promedio de instrucciones necesarias para realizar una
buacutesqueda
Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten
Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda
Nordm de documentos revisados por el
usuario
Promedio de documentos que los usuarios estaacuten
dispuestos a revisar
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]
Medidas de resultado
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos relevantes
Promedio de la efectividad
E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Medidas promedio de la
satisfaccioacuten del usuario
Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante
el resultado de una buacutesqueda
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]
El conjunto de medidas basadas en la relevancia es el que se considera maacutes
importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de
otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar
36
EVALUACIOacuteN DE LOS SISTEMAS RI
aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las
basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia
introduciendo algunos aspectos diferenciadores
321 Medidas basadas en la relevancia
Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un
conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de
documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro
subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente
este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto
conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan
estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados
en el conjunto formado por la totalidad de documentos
documentos relevantes A
documentos no relevantes notA
documentos recuperados relevantes
A cap B
documentos recuperados no relevantes
notA cap B
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El
color maacutes oscuro indica el subconjunto B de documentos recuperados
Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de
buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en
donde A representa el conjunto de documentos relevantes B representa el conjunto de
37
EVALUACIOacuteN DE LOS SISTEMAS RI
documentos recuperados notA representa el conjunto de documentos no relevantes y notB
representa el conjunto de documentos no recuperados
RELEVANTES NO RELEVANTES
RECUPERADOS A cap B notA cap B B
NO RECUPERADOS A cap notB notA cap notB notB
A notA
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]
Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros
autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute
como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de
fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35
Precisioacuten |B|
|BA| cap
Exhaustividad |A|
|BA| cap
Tasa de Fallo |A|
|BA|notcapnot
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]
La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes
con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes
recuperados entre el total de documentos recuperados
La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes
recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy
difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero
no se podraacute afirmar esa cantidad con total seguridad
La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes
respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes
38
EVALUACIOacuteN DE LOS SISTEMAS RI
importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos
Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la
generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes
sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel
grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto
grado de generalidad tendraacute una mayoriacutea de documentos relevantes
Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola
precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece
en la siguiente expresioacuten
)G1(F)GE()GE(Pminus+sdot
sdot= (31)
en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo
Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad
asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse
en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje
Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de
[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente
relacionados
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]
39
EVALUACIOacuteN DE LOS SISTEMAS RI
Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean
medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los
usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a
un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la
necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la
cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute
considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si
que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se
buscaraacute una gran exhaustividad
322 Medidas orientadas al usuario
Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la
evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el
conjunto de documentos relevantes para una respuesta es siempre el mismo
independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la
realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son
relevantes y cuales no
Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de
que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la
relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y
[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los
antildeos setenta [Korfhage 1997] Se distinguen tres comunes
Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el
usuario ha recuperado
Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran
previamente desconocidos para el usuario
Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados
examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute
dispuesto a examinar
40
EVALUACIOacuteN DE LOS SISTEMAS RI
Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de
documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad
indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea
Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio
entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de
documentos examinados al intentar encontrar esos documentos relevantes Para ello se
parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y
el sistema permite al usuario localizar todosrdquo [Korfhage 1997]
323 Caacutelculo de la Exhaustividad y la Precisioacuten
Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se
presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute
una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que
enumeraremos a continuacioacuten
Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base
de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los
documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea
escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de
recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo
Otro procedimiento para calcular la exhaustividad consiste en asignar a varias
personas la tarea de analizar los documentos recuperados Este procedimiento resulta
complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el
usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios
de valor y lo que sea interesante para una puede no serlo para la otra
Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la
coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se
estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas
El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague
[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy
bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra
deberiacutea ser muy grande lo que complica el anaacutelisis
41
EVALUACIOacuteN DE LOS SISTEMAS RI
Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra
de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista
que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse
sin problemas a una base de datos global y por ello sugiere que puede hacerse
Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de
una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige
una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que
resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los
valores calculados para la exhaustividad y la precisioacuten son los siguientes
Relevante E P
d1 X 025 1
d2 X 05 1
d3 05 066
d4 X 075 075
d5 075 06
d6 075 05
d7 X 1 057
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos
Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben
realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un
uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un
documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el
total de documentos relevantes)
Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes
recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son
dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el
nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos
relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir
un graacutefico como el que se muestra en la figura 33
42
EVALUACIOacuteN DE LOS SISTEMAS RI
Pares de valores exhaustividad-precisioacuten
0
01
02
03
04
05
06
07
08
09
1
d1 d2 d3 d4 d5 d6 d7
Val
or
Exhaustividad Precisioacuten
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la
precisioacuten seguacuten Salton tomados de la tabla 36
Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja
claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la
coleccioacutenrdquo [Salton 1983]
Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de
una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten
corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial
de 1 hasta el de 066
324 Medidas promedio exhaustividad-precisioacuten
Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de
medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la
realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media
aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales
43
EVALUACIOacuteN DE LOS SISTEMAS RI
de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P
seraacute
sum= +
=N
1i ii
i
)NoRecRel(DRecRel(D)RecRel(D)
N1)D(dadExhaustivi (32)
sum= +
=N
1i ii
i
)RecNoRel(DRecRel(D)RecRel(D)
N1(D) Precisioacuten (33)
en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)
seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos
recuperados no relevantes siendo D el conjunto de documentos
A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores
diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez
de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la
figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de
valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten
como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como
aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la
relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica
buacutesqueda
Korfhage propone dos meacutetodos distintos para calcular el promedio de la
exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los
documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada
pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo
recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la
precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir
una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]
El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto
de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se
conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo
44
EVALUACIOacuteN DE LOS SISTEMAS RI
Graacutefico E-P
0
01
02
03
04
05
06
07
08
09
1
11
0 01 02 03 04 05 06 07 08 09 1 11 12
Exhaustividad
Prec
isioacute
n
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto
con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo
325 Valores sumarios simples
Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la
recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten
media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos
en estudio y segundo porque cuando comparamos dos algoritmos podemos estar
interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto
dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que
podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad
Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de
exhaustividad
3251 Precisioacuten media al observar documentos relevantes
Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden
de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada
aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir
observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media
45
EVALUACIOacuteN DE LOS SISTEMAS RI
seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que
recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto
valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor
pobre de exhaustividad global
3252 La R-Precisioacuten
La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos
ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo
R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si
consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden
entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10
documentos recuperados Esta medida puede utilizarse para observar el comportamiento
de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede
calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple
para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de
diversas consultas puede resultar impreciso
3253 Histogramas de Precisioacuten
Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la
historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el
valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i
respectivamente podemos definir la diferencia entre ambos valores como
RPAB(i) = RPA(i) - RPB(i) (34)
Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual
rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces
indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el
algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden
representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar
raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple
inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35
46
EVALUACIOacuteN DE LOS SISTEMAS RI
-15
-1
-05
0
05
1
15
1 2 3 4 5 6 7 8 9 10
Consultas
R-P
reci
sioacuten
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza
restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]
33 Otras medidas alternativas
Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la
seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas
ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en
funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las
medidas alternativas deberiacutean cumplir las siguientes condiciones
Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de
forma separada de otros criterios como el coste
Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos
recuperados no debe afectar a estas medidas
Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores
47
EVALUACIOacuteN DE LOS SISTEMAS RI
331 Exhaustividad y precisioacuten normalizadas
Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la
lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los
resultados al usuario formando una secuencia de documentos Incluso en sistemas que no
presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente
Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los
documentos siguientesrdquo [Korfhage 1997]
Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros
documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este
usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no
relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos
no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se
le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician
el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los
documentos al usuario
En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]
[Korfhage 1997]
Primero considera un sistema ideal donde los documentos relevantes se recuperan
antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la
exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe
que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido
devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se
muestra en la figura 36 siguiente
Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de
02 un documento relevante divido entre el total de cinco documentos relevantes de la
coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la
exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa
la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en
las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al
presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la
secuencia
48
EVALUACIOacuteN DE LOS SISTEMAS RI
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor
buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]
Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal
representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la
exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de
dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es
el nuacutemero total de documentos
Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el
resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda
ideal y la peor buacutesquedardquo [Rijsbergen 1979]
332 Ratio de deslizamiento
Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos
recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal
donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se
permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la
pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma
de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos
de los documentos que hubiera devuelto el sistema ideal
En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento
por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada
fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor
de uno
49
EVALUACIOacuteN DE LOS SISTEMAS RI
A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos
que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25
82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la
columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos
documentos habriacutean sido recuperados y presentados en el orden descendente de pesos
formando la columna ldquoΣ pesos idealesrdquo de dicha tabla
La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada
ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por
ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82
Ratio de Deslizamiento
N sum pesos reales sum pesos ideales Deslizamiento
1 70 82 085
2 120 152 079
3 120 204 059
4 145 254 057
5 227 299 076
6 272 336 081
7 309 367 084
8 320 392 082
9 372 403 092
10 403 403 1
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de
pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]
333 Medida de Voiskunskii
Este autor considera que los criterios para comparar los resultados de una buacutesqueda
ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda
y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el
establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]
Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko
I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos
medidas no cumplen totalmente los criterios comentados fundamentalmente porque se
50
EVALUACIOacuteN DE LOS SISTEMAS RI
infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra
cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a
conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants
Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de
los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con
los resultados siguientes
a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son
b Se recuperan 67 documentos siendo pertinentes 40 de ellos
c Se recupera un solo documento que resulta ser pertinente
Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores
para la medida I1
Buacutesqueda E P I1
a 05 05 1
b 04 0597 0997
c 001 1 101
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]
Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener
el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute
considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se
le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute
cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos
independientemente del valor matemaacutetico que nos devuelva la foacutermula
Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para
resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de
documentos relevantes recuperados y el nuacutemero de documentos que conforman el
resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del
producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta
medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39
51
EVALUACIOacuteN DE LOS SISTEMAS RI
En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto
para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la
mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior
En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir
en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo
Buacutesqueda E P I2
a 05 05 025
b 04 0597 02388
c 001 1 001
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]
34 Resumen
En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los
sistemas de Recuperacioacuten de Informacioacuten
Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante
un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten
con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos
resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito
Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten
Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas
RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la
precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de
documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la
precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el
tema
En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar
respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se
proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad
relativa
52
EVALUACIOacuteN DE LOS SISTEMAS RI
Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque
seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la
exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos
para calcular la exhaustividad como los manuales resultan complejos y costosos En otros
casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar
solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten
Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen
los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en
cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de
precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos
considerados
Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas
de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el
cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que
conforman el resultado
53
EVALUACIOacuteN DE LOS SISTEMAS RI
54
Capiacutetulo 4
PERFILES DE USUARIO
En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de
los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten
estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a
los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus
necesidades reales de informacioacuten
La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten
NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por
ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de
creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias
maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de
realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a
sus intereses y circunstancias
41 iquestQueacute es un Perfil
Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear
los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que
describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un
ordenador y puede utilizarse como representante del objeto en las tareas computacionales
Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten
la gestioacuten de conocimiento y el anaacutelisis de datos
Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del
comportamiento de un individuo hasta el perfil del funcionamiento de un programa de
ordenador En principio se puede hacer un perfil de todo y por consiguiente las
caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado
Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de
los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas
55
PERFILES DE USUARIO
especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos
antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes
El perfil de usuario va a contener informacioacuten modelada sobre el usuario
representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema
incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute
necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto
refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de
creacioacuten y gestioacuten de los perfiles de usuario
42 Meacutetodos de creacioacuten de perfiles
Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o
manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo
impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente
En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario
escribieacutendolos en su perfil de usuario o respondiendo a formularios
Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a
partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo
a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra
un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de
informacioacuten
Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se
modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de
Inteligencia Artificial para dichas tareas
Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente
para producir perfiles maacutes precisos y comprensibles
56
PERFILES DE USUARIO
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo
colaborativo de creacioacuten de perfiles Fuente [Rui 2003]
43 Meacutetodos de adquisicioacuten de los datos del usuario
En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de
datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten
activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de
adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos
para la clasificacioacuten del usuario
431 Informacioacuten Expliacutecita
La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el
propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener
mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas
iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo
1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el
usuario a un subgrupo de usuarios predefinido
57
PERFILES DE USUARIO
Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para
autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos
sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios
para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de
cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes
orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de
entretenimiento y pueden ofrecer incentivos para que el usuario las responda
Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta
los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea
inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta
paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo
inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que
responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa
de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo
[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]
432 Reglas de Adquisicioacuten
Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se
ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario
En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones
observadas del usuario o a una interpretacioacuten de su comportamiento
Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o
independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo
encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X
entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde
se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo
Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil
implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de
describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y
otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde
se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en
tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la
aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas
58
PERFILES DE USUARIO
variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que
seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten
especiacuteficas
433 Reconocimiento del Plan
Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan
realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una
base de conocimiento de tareas para modelar las posibles acciones del usuario y las
relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos
asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre
todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las
teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos
como en [Lesh 1995]
El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que
tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se
muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en
una aplicacioacuten de gestor de mensajes
434 Estereotipos
En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre
ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario
pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos
semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de
circunstancias [Rich 1979]
En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la
informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra
un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario
Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de
activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las
presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el
usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo
[Ambrosini et al 1997]
59
PERFILES DE USUARIO
Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al
1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro
importante que determina la efectividad de este meacutetodo va a ser la calidad de los
estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto
atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado
para cada estereotipo
435 Adquisicioacuten de Datos de Utilizacioacuten
En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo
para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que
registran las acciones del usuario para obtener informacioacuten de su comportamiento son
Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa
comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la
aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de
su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia
de navegacioacuten
Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales
[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes
aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que
los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las
acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el
comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y
para realizar automaacuteticamente acciones por el usuario
Tambieacuten se han construido perfiles de usuario orientados a su comportamiento
mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de
[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten
para modelar al usuario en sistemas educacionales
44 Representacioacuten del Perfil de Usuario
Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese
modelo el perfil de usuario para que pueda ser utilizado por otros componentes del
sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como
60
PERFILES DE USUARIO
pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los
contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten
los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales
Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y
las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de
razonamiento deductivo inductivo y analoacutegico
441 Razonamiento Deductivo
La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a
lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados
en la loacutegica y el razonamiento con incertidumbre
4411 Representacioacuten e Inferencia Loacutegica
El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra
bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo
lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas
sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del
tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del
concepto en la base de conocimiento del sistema
Para representar el conocimiento del sistema sobre el dominio y el conocimiento
del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de
conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de
proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la
incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a
meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten
de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]
4412 Representacioacuten y Razonamiento con Incertidumbre
Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden
utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo
es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas
61
PERFILES DE USUARIO
Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar
conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de
conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los
usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza
recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente
de ventas [Popp y Lodel 1996]
442 Razonamiento Inductivo Aprendizaje
En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se
monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales
basadas en las observaciones
En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier
tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten
afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica
especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten
personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar
filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario
partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de
mayor o menor intereacutes para el usuario basaacutendose en su perfil
Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En
Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico
para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de
documentos
En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario
se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las
palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas
adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic
1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones
claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los
perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que
represente a un documento cada peso podraacute expresar la importancia de la palabra en tal
documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la
importancia de la palabra para el usuario
62
PERFILES DE USUARIO
443 Razonamiento por Analogiacutea
El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios
En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de
usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo
de perfiles de usuario
4431 Filtrado Basado en Grupos
En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos
problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido
puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar
en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las
caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen
sistemas que buscan los usuarios que muestran un comportamiento interactivo similar
Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en
intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el
conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en
grupos [Alspector et al 1997]
Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula
las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las
clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se
utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker
y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus
marcadores de paacuteginas o ldquobookmarksrdquo
El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar
y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En
[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este
tipo
1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica
63
PERFILES DE USUARIO
4432 Agrupacioacuten de Perfiles de Usuario
Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute
considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de
usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios
El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos
utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un
algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes
formando perfiles de grupos de usuarios
[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de
aprendizaje para determinar el contenido de los estereotipos y para construir comunidades
de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45
[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se
corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo
una categoriacutea de noticias
El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende
expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los
documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del
usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su
perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho
perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las
caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema
realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que
considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el
usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no
visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores
45 Realimentacioacuten del usuario
Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una
secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario
comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten
La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La
realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema
64
PERFILES DE USUARIO
monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En
el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita
seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina
que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es
que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace
creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo
invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir
o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo
Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos
histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el
usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por
ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario
para ir confeccionando automaacuteticamente su perfil
Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al
usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con
respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten
que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra
parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable
puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no
es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en
dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en
ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede
suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener
modelos distintos uno del otro [Rui 2003]
Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la
realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten
positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa
puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute
auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa
Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de
utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se
requiera esfuerzo alguno por parte de eacuteste
65
PERFILES DE USUARIO
46 Agentes Software y creacioacuten de perfiles
Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en
entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese
entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo
Los agentes se han utilizado ampliamente en distintos campos comerciales
industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de
forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y
presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la
colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos
agentes se basaraacuten en alguacuten modo de conocimiento del usuario
Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software
convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su
ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten
capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no
impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un
sistema
La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute
principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes
que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes
podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de
inteligencia artificial
Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]
Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de
alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan
siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para
la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso
asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica
en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona
las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario
que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del
usuario y actualizar entonces su perfil
66
PERFILES DE USUARIO
47 Modelos Estadiacutesticos
Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis
estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute
paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten
para elaborar su perfil correspondiente
Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil
para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de
eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil
de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en
paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el
comportamiento en accesos del usuario y un grafo de accesos a la Web donde se
mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que
serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de
usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de
buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario
obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el
contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un
conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas
para evaluar el intereacutes de una paacutegina para un usuario
Las presunciones empiacutericas consideradas en [Chan 1999] son
1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor
intereacutes
2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes
3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso
indicaraacute que las paacuteginas son de intereacutes
4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa
paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa
paacutegina
En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio
de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de
enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina
puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones
67
PERFILES DE USUARIO
se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo
superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten
Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado
CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para
construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de
usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que
eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un
servidor web denominado JobFinder donde se graban los registros de actividad de los
usuarios
48 Razonamiento Basado en Reglas
Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas
pasados efectuando asociaciones a lo largo de relaciones generales para encontrar
soluciones al problema presente
Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose
en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio
existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario
se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos
partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y
la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema
dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino
basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de
usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos
enlaces que de otra manera estariacutean presentes en la paacutegina
El principal problema de estos sistemas seraacute la dificultad para describir y definir las
reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil
de usuario automaacutetico
Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas
que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo
68
PERFILES DE USUARIO
sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten
por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente
sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su
objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces
ordenados de mayor a menor puntuacioacuten seguacuten su perfil
Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo
utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por
el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir
elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web
recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su
frecuencia
Se distinguen dos aspectos de las preferencias del usuario las preferencias
persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de
usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones
En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario
se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar
procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se
representaraacute mediante un vector que se construye considerando ambos tipos de
preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para
calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea
anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la
foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1
Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos
teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o
de la frecuencia del teacutermino
La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia
del coseno entre ambos
wPwPw)sim(P rrr
sdotsdot
=r
(41)
De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo
con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de
similitud
69
PERFILES DE USUARIO
410 Resumen
En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos
para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten
de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se
incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros
casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones
adquiriendo sus datos de utilizacioacuten
Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una
representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del
sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e
inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos
numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o
aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el
aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios
En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los
documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen
dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el
meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario
Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos
permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza
el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten
expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e
implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en
proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten
Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes
software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda
y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma
automaacutetica recurriendo a teacutecnicas de inteligencia artificial
Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos
anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque
analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar
soluciones al problema presente sistemas de razonamiento basado en reglas
70
PERFILES DE USUARIO
Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite
realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico
elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo
vectorial y valores de similitud basados en la medida del coseno para clasificar los
resultados de una buacutesqueda
71
PERFILES DE USUARIO
72
Capiacutetulo 5
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE
CONTENIDOS BASADO EN PERFILES
En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su
evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y
diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario
En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone
un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un
perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al
usuario seguacuten su puntuacioacuten
El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten
en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario
utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del
perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute
coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]
Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto
aplicaacutendolo a la elaboracioacuten de un agregador inteligente
51 Introduccioacuten
El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un
mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten
la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado
automaacuteticamente
Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir
su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten
que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute
compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de
dicho contenido
73
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten
seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten
disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de
las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del
sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden
darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva
informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada
uacutenicamente por el inicio y fin de la ejecucioacuten del sistema
En la figura 51 se muestra una visioacuten general de este sistema propuesto donde
puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y
que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma
de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario
Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de
retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil
Usuario
Visualizar y seleccionar noticias
World Wide Web
Perfil de Usuario
Agregador de noticias
Puntuar la informacioacuten recuperada
Actualizar perfil
Proporcionar noticias relevantes
Seleccioacuten de noticias
Figura 51 Vista general del sistema NectaRSS propuesto
52 Construccioacuten automaacutetica de un perfil de usuario basado en su
historia de navegacioacuten
En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras
palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o
evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su
historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo
74
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas
sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se
recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa
informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten
Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar
diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo
de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen
por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el
perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las
preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario
construido con la historia de navegacioacuten por titulares durante S sesiones
Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis
Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el
usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En
primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como
sigue
(51) )ww(ww ht
ht
ht
hm21
=
donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino
Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define
como sigue
ht k
w
sum =
= m
1s sh
khht
tftf
wk
(52)
donde tfhk es la frecuencia del teacutermino tk en cada titular h
Entonces definimos a Ps como
(53) )psps(psPs21 ttts =
75
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la
sesioacuten j y tk denota cada teacutermino
Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps
sum=
=j
kk
S
1h
ht
jt w
S1ps (54)
Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente
seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la
ecuacioacuten (54) ktps
El perfil de usuario P se denotaraacute tambieacuten mediante un vector
(55) )pp(pPn21 ttt=
donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino
Cada elemento se define kt
p
sum sum= =
=T
1j
S
1h
ht
jt
j
kkw
S1p (56)
siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento
Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al
teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j
Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguientes expresiones
76
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Pj+1 = a Pj + b Psj para forall sub Psj (57) kt
p
Pj+1= Pj para forall nsub Psj (58) kt
p
donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual
se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a
Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como
se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras
cada sesioacuten
hllog2
tt ep)fol(pkk
minussdot= (59)
donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]
En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea
determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula
(510) siguiente
ktp
ktp
Pj+1 = fol( Pj) para forall nsub Psj (510) kt
p
521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten
del perfil de usuario
Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute
presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la
posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica
del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten
asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al
funcionamiento del sistema propuesto
Utilizando el modelo vectorial en este caso para los titulares que posean un
resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los
77
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a
partir de los teacuterminos que aparezcan en el resumen asociado
Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen
asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr
con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar
denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)
como sigue
(511) )ww(ww hrt
hrt
hrt
hrv21
=
donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk
denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento
de whr se define como sigue hrtk
w
sum =
= v
1s shr
khrhrt
tftf
wk
(512)
donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h
Entonces definimos a Pr como
(513) )prpr(prPv21 tttr =
y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr
sum=
=j
kk
Sr
1h
hrt
jt w
Sr1pr (514)
78
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj
seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se
muestra en la ecuacioacuten (514) kt
pr
Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias
en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior
Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguiente foacutermula
Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt
p
donde a y b son constantes que satisfacen a + b = 1
53 Caacutelculo de la puntuacioacuten de los titulares
Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente
vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el
titular h y tk denota cada teacutermino con el perfil de usuario donde n es el
nuacutemero de teacuterminos distintos y tk denota cada teacutermino
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular
h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la
seccioacuten 221 de esta tesis y propuesta por [Salton 1989]
hw
h
hh
wPwP)wsim(Psdotsdot
= =sum sumsum= =
=
sdot
sdotm
1k2m
1kht
2t
m
1khtt
kk
kk
(w(p
wp
)) (516)
El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para
cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya
puntuacioacuten sea mayor
79
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular
con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez
se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de
olvido
Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes
apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo
Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo
t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo
Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute
wh= ( = 033 = 033 = 033) 1t
ps 2tps3t
ps
Ahora suponemos que se tienen los siguientes valores en el perfil de usuario
correspondientes a los teacuterminos del titular h
P= ( = 003 = 001 = 009) 1t
p2t
p3tp
La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la
medida del coseno (516) se calcularaacute de la siguiente manera
)wsim(P h =)()(
)()()(222222 090010030330330330
090330010330030330++sdot++
sdot+sdot+sdot = 079
Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil
de usuario P en este ejemplo es de 079
80
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
531 Puntuacioacuten alternativa de los titulares
Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la
medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por
[Salton 1989]
Asiacute dado el correspondiente vector caracteriacutestica del titular h
donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario
donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino
entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del
titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
hw
=)wsim(P h
sum sumsumsum
= ==
=
sdotminussdot
sdotm
1k
m
1khtt
2m
1kht
2t
m
1khtt
kkkk
kk
wp)(w)(p
wp (517)
El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar
para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten
54 Descripcioacuten general del sistema NectaRSS
Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52
y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone
un sistema de recomendacioacuten de noticias recuperadas de la Web
Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador
inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2
De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores
tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo
implementa puede encontrarse en el Anexo II
1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I
81
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de
usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia
Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten
El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella
informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin
esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando
entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute
confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada
sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten
(55) mediante la foacutermula (57)
Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula
(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten
El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la
seccioacuten 53 utilizando la foacutermula (516)
Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que
aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula
(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps
como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten
(513)
541 Caracteriacutesticas singulares del sistema
NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental
del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten
dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin
embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va
elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la
informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin
distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de
usuario resulta maacutes sencillo
Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la
informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia
reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)
82
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten
2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al
comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las
similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para
conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias
a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente
Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias
utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda
informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada
seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente
ninguna aplicacioacuten similar con estas funciones
55 Resumen
En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten
de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a
los usuarios en la tarea de encontrar la informacioacuten que demandan
NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de
usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal
usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el
sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada
Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea
un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar
cada sesioacuten con el sistema
Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para
ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten
Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada
titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino
Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su
correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del
coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton
1989]
83
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
84
Capiacutetulo 6
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA
PROPUESTO
En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar
experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza
exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea
seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha
experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para
determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el
sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las
palabras y se describen los experimentos efectuados
En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del
sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la
Correlacioacuten entre titulares y la R-Precisioacuten
61 Objetivo general del sistema y esquema de su experimentacioacuten
El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el
filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base
a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones
satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y
faacutecilmente la informacioacuten que demande
Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas
1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus
elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de
informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5
2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64
de este capiacutetulo incluyendo
85
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de
puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas
informativas del sistema
minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para
cada sesioacuten con el sistema
3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el
funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos
en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten
632 Los resultados de estos experimentos y los paraacutemetros seleccionados se
expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente
4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a
las distintas medidas calculadas y prueba de un sistema alternativo de
puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los
experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos
resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente
62 Metodologiacutea seguida
Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se
procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio
formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de
noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo
II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes
La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin
embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes
En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en
una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar
usuarios para su prueba
86
RESULTADOS DE LOS EXPERIMENTOS
Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y
se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en
formato XML1 para su posterior anaacutelisis
El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de
treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica
Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa
fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido
como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello
que todos los valores que se ofrecen como resultado de los experimentos han sido
suficientemente contrastados por este meacutetodo
Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la
base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten
asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo
selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61
ltSESIOacuteNgt
ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt
ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt
ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt
ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt
ltTitular_sesioacutengt
ltTiacutetulogtMadrid 2012ltTiacutetulogt
ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt
ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt
ltFechagt2005-05-17T091249+0100ltFechagt
ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt
ltOrden_eleccioacutengt2ltOrden_eleccioacutengt
ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt
ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt
ltErrorgt06355515025975752ltErrorgt
ltTitular_sesioacutengt
ltSESIOacuteNgt
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La
ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden
en que el usuario lo ha elegido
1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas
87
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Antes de las sesiones de prueba en cada uno de los casos considerados en los
distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin
de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan
los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener
conclusiones
63 Estrategias de experimentacioacuten
Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la
primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para
comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los
resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil
de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones
Estas fases se describen maacutes detalladamente a continuacioacuten
Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute
se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos
titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el
intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas
proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)
Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada
experimento se compararaacuten los resultados para comprobar si existen variaciones
significativas y cuaacutel valor de entre los experimentados arroja mejores resultados
En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en
las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el
sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus
correspondientes preferencias temaacuteticas como cualquier otro usuario real Una
descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en
la seccioacuten 632
Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros
determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos
usuarios reales contrastando los resultados para determinar su validez En esta fase
se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste
iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que
permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar
88
RESULTADOS DE LOS EXPERIMENTOS
desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el
sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten
se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes
detallada de los usuarios experimentales y de los experimentos correspondientes a
esta fase se encuentra en la seccioacuten 632
631 Tratamiento de las palabras
Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se
analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la
descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una
a una todas las palabras
En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o
es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar
de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso
muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]
y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a
minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es
una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o
modificando sus valores de perfil si ya estaacute contenida
El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su
inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten
se podraacute forzar al sistema para que excluya las palabras que se deseen
Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del
analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten
comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado
por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por
52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la
herramienta ispell [DATSI 2005]
2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm
89
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
632 Descripcioacuten de los experimentos
A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema
Los cuatro primeros se corresponden con la primera fase destinada a probar diversos
paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento
del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el
uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas
distintas de puntuar la informacioacuten
Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada
sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el
Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea
diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea
Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la
seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el
primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto
de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de
los mismos titulares de noticias
Experimento 1 Con Resumen ndash Sin resumen (CRS)
En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la
consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de
usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee (ESIN)
Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)
Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se
probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados
obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores
experimentados resulta maacutes beneficioso para el sistema Para este experimento el
90
RESULTADOS DE LOS EXPERIMENTOS
sistema estaraacute configurado con la mejor de las dos estrategias descritas en el
experimento CRS anterior
Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y
33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal
y como puede observarse en la figura 62
Representacioacuten del factor de olvido para distintos valores del intervalo de vida
07
075
08
085
09
095
1
105
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Intervalo de vida hl
Valo
r
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo
de vida hl
Experimento 3 Importancia Relativa de los Perfiles (IRP)
En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al
finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el
perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con
distintas importancias relativas para dichos perfiles modificando sus paraacutemetros
multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del
experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones
consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema
Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)
(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y
(a=90 b=10) abarcando uniformemente el intervalo [0 100]
91
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)
Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento
del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar
el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS
pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con
ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento
Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)
Considerando los resultados obtenidos en los cuatro experimentos anteriores se
configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten
de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios
reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en
cada una de las sesiones Al final del experimento se compararaacuten los resultados que se
hayan obtenido para cada uno de ellos para determinar si el sistema posee un
funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema
para que presente al usuario una lista aleatoria de titulares de entre los recuperados en
cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-
experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute
ldquoAZARrdquo
En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14
titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar
simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento
vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la
lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de
entre los recuperados en la sesioacuten
Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales
debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por
el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes
92
RESULTADOS DE LOS EXPERIMENTOS
proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar
estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los
titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera
sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos
los titulares recuperados
Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones
baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada
experimento
USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5
Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en
el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto
como medida alternativa en la seccioacuten 531 del capiacutetulo anterior
En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las
empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la
informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos
casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados
por puntuacioacuten para que escoja los que sean de su intereacutes
93
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
64 Medidas para la evaluacioacuten experimental del sistema
En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del
sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las
preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por
el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento
determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su
funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores
recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la
informacioacuten que maacutes le interesa
641 Tasas formadas por relaciones entre las variables observables
Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario
almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute
en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de
intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas
medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el
sistema
Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en
una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en
dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor
que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares
con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la
figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos
conjuntos como variables dependientes del sistema
El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de
las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas
para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para
ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el
apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares
que se le ofrecen al usuario o card(T)
En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los
que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el
94
RESULTADOS DE LOS EXPERIMENTOS
perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares
destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario
seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))
titulares T
titulares elegidos E(T)
titulares elegidos
destacados E(T) cap D(T)
titulares destacados D(T)
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la
seccioacuten 641
En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por
tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra
variable a considerar siendo su valor el de card(E(T))
Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir
un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal
cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se
corresponderaacute con card(E(T) cap D(T))
Si relacionamos entre si estas variables podremos definir varias tasas de valor simple
que nos ayuden a evaluar el sistema
Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten
respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como
95
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
T)T(EC P = (61)
Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la
sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares
Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada
mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como
T)T(DCR = (62)
Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de
titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al
total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones
iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del
usuario
Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con
puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT
definida como
T
)T(D)T(ECTcap
= (63)
Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con
puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los
titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede
con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa
En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los
conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del
funcionamiento del sistema
96
RESULTADOS DE LOS EXPERIMENTOS
titulares elegidos titulares
destacados
titulares elegidos
destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila
642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima
Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una
puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas
(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares
se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones
eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el
sistema
En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares
ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible
calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares
escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo
que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los
N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten
determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos
por el usuario y el valor )T(p maacuteximo se define la tasa CD como
)T(p))T(E(pC
maxD = (66)
en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados
a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al
nuacutemero de titulares escogidos por el usuario
97
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error
Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en
[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el
conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de
noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten
asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de
titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto
error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi
siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las
dos medidas siguientes
Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del
sistema Se calcularaacute seguacuten la foacutermula
N
eE
N
iisum
== 1 (67)
Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento
del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el
algoritmo Se definiraacute como
( )N
EEN
isum=
minus= 1
2
σ (68)
644 La Correlacioacuten entre titulares
En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a
ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera
anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los
titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al
seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un
subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN
representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la
siguiente medida
98
RESULTADOS DE LOS EXPERIMENTOS
Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los
titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente
escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto
mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute
el algoritmo [Hill 1995] Se definiraacute
[ ]
fc
N
iii ffcc
Nr σσ sdot
minussdotminussum= =1
)()(1
(69)
en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la
expresioacuten representa la covarianza
645 La R-Precisioacuten
Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se
generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de
puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para
ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de
titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario
entre los ofrecidos por el sistema
Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis
primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para
el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el
comportamiento del algoritmo para cada sesioacuten i del experimento
El valor de la R-Precisioacuten podraacute definirse en este caso como
))T(E(card))T(E(posR)i(RP
i
i= (610)
en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros
titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al
nuacutemero total de titulares elegidos en dicha sesioacuten
99
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
65 Resumen
Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para
verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la
presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este
sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del
sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que
realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten
Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en
el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se
seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se
realizaron diversos experimentos analizando al final de cada uno de ellos los resultados
obtenidos para valorar el funcionamiento del sistema propuesto
En la experimentacioacuten se distinguen dos fases principales la primera destinada a
determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar
el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los
cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el
comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el
mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la
informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento
adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando
las palabras vaciacuteas y contabilizando las que se vayan considerando
Despueacutes de describir los experimentos se proponen diversas tasas y medidas para
cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de
titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras
relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su
similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error
Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es
la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el
comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6
mediante un valor simple
100
Capiacutetulo 7
RESULTADOS DE LOS EXPERIMENTOS
En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten
632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos
obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que
se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto
comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las
medidas que evaluacutean su funcionamiento
En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el
experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes
opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se
presentan los resultados del experimento DIV en el que se prueba el uso de un factor de
olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el
experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil
acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS
pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos
En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU
analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el
experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten
mediante la medida del coseno y mediante la medida de Jaccard
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)
Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del
sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para
la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras
se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y
los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN
101
RESULTADOS DE LOS EXPERIMENTOS
Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y
que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que
se basa en el valor de puntuacioacuten que el sistema asigna a los titulares
Para comparar los resultados de ambos sub-experimentos en la tabla 72 se
muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones
experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten
estaacutendar en los graacuteficos de las figuras 71 72 y 73
titulares elegidos titulares destacados
titulares elegidos destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
considerados La relacioacuten se establece dividiendo la columna por la fila
Experimento CRS ndash Valores medios de las tasas calculadas Caso
CP CR CT CD
ECON 02312 06292 01572 05646
ESIN 02312 04248 01269 05192
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30
sesiones experimentales
En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos
casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares
por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba
que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la
figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a
los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no
se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en
el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el
perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con
alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras
del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en
el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72
102
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
09Va
lor
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1
000
005
010
015
020
025
Valo
r
ECON ESIN
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
103
RESULTADOS DE LOS EXPERIMENTOS
Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso
ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las
anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten
media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media
maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y
como se define en la foacutermula (64)
Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
Valo
r
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza
los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor
medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor
Para comprobar si existen diferencias significativas entre los dos tratamientos del
perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos
obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba
estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su
normalidad condicioacuten indispensable para aplicar el test de Student
Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de
00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera
104
RESULTADOS DE LOS EXPERIMENTOS
muy significativo Por lo tanto se considera que si existen diferencias significativas entre el
caso ECON y el caso ESIN seguacuten la tasa CD
Paraacutemetros ECON ESIN
Media 05646 05192
Muestra 30 30
Desviacioacuten Estaacutendar 01740 01934
P del test de Normalidad 00572 gt010
Test t-Student (2 colas) 00025
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN
destacando el valor de la prueba t -Student para la tasa CD
Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la
praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados
hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos
titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con
mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender
directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el
sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y
CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no
ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan
al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede
esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de
significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea
de intereacutes
En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de
titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las
noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema
a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una
noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto
que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil
105
RESULTADOS DE LOS EXPERIMENTOS
Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento
del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras
del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente
sus resultados
Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el
perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias
estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor
cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la
mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de
titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a
su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que
cero
Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON
respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el
funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean
diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor
estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las
noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su
historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes
experimentos
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)
En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido
foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron
30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y
33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como
puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el
sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol
Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas
consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que
en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de
hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del
experimento 1 anterior
106
RESULTADOS DE LOS EXPERIMENTOS
Los valores medios obtenidos para la tasa CD en los distintos casos considerados
despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la
figura 74 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 2 ndash Valor medio de la tasa CD
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol
04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones
experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido
SINfol
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02
03
04
05
06
07
08
Valo
r
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida
hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan
valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol
Se observa que los resultados obtenidos por la tasa CD para los distintos valores del
intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha
calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la
obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para
107
RESULTADOS DE LOS EXPERIMENTOS
comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series
de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada
uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para
aplicar la prueba t- Student
Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de
06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera
no significativo Por lo tanto se considera que no existen diferencias significativas entre la
consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten
de tal factor de olvido seguacuten la tasa CD
Paraacutemetros Factor de olvido
con hl=7
Sin factor de
olvido
Media 05681 05652
Muestra 30 30
Desviacioacuten Estaacutendar 01500 01387
P del test de Normalidad gt010 gt010
Test t-Student (2 colas) 06292
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con
intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la
prueba t -Student para la tasa CD
Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de
diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido
con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema
pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten
se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es
por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el
proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute
durante los siguientes experimentos
108
RESULTADOS DE LOS EXPERIMENTOS
73 Experimento 3 Importancia Relativa de los Perfiles (IRP)
Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el
rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil
de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)
Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro
a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil
elaborado por la sesioacuten en curso
Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros
durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)
(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)
Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la
tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea
de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de
titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el
tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los
distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la
tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)
(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)
06186 06240 06283 06306 06319 06315 06286 06223 06123
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones
experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b
En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los
casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)
La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene
ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario
despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media
para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten
auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si
existen diferencias significativas entre las distintas series de valores
109
RESULTADOS DE LOS EXPERIMENTOS
Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos
paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten
Ps y el perfil acumulado P tal y como se define en la foacutermula (515)
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP
(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040
045
050
055
060
065
070
075
080
Valo
r
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de
usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par
(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)
Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta
al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la
elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el
experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las
diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados
Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten
los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten
50 para los paraacutemetros a y b de la foacutermula (515)
Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones
experimentales con el sistema considerando el caso que denotaremos por ECON2
110
RESULTADOS DE LOS EXPERIMENTOS
cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se
utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se
muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha
observado en el experimento 1
A diferencia de los experimentos anteriores donde se obtuvieron valores medios en
este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones
para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados
obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados
middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y
ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos
cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten
Experimento 4 - Resultados para la tasa CD
Lineal (ECON2) y = 00004x + 06538
Lineal (ESIN2) y = -00027x + 06788
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los
resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de
tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable
Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes
a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la
serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la
111
RESULTADOS DE LOS EXPERIMENTOS
pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo
largo de las sesiones para este segundo caso
Estos resultados nos confirman las conclusiones obtenidas para el experimento 1
donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las
noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos
de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada
sesioacuten con el sistema
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)
En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes
usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los
resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su
adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos
usuarios
Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se
configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que
presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por
puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos
titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar
desplazamiento vertical alguno
Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30
sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el
sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el
perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del
capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras
30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes
entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-
experimento al no existir perfil de usuario alguno se ofrecen todos los titulares
Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen
en las tablas y graacuteficos de las secciones siguientes
112
RESULTADOS DE LOS EXPERIMENTOS
751 Comparacioacuten de Tasas
En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la
sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se
representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas
en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se
representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN
a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de
titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en
el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la
sesioacuten
La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el
caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como
destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute
los mismos resultados que la tasa CT para el caso ldquoORDENrdquo
Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357
CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071
CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927
CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en
los casos ldquoORDENrdquo y ldquoAZARrdquo
Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267
CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062
CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845
CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones
experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo
113
RESULTADOS DE LOS EXPERIMENTOS
Observando el graacutefico de la figura 77 donde se representan los valores obtenidos
por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78
donde se representan los valores medios calculados para dicha tasa en las 30 sesiones
experimentales vemos que para todos los usuarios se han obtenido mayores valores para el
caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso
ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso
ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir
mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el
intereacutes del usuario
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de
0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo
Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30
sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo
Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el
caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Observando el graacutefico de la figura 79 donde se representan los valores obtenidos
por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710
donde se representan los valores medios calculados para dicha tasa vemos que para todos
los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los
titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al
azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el
usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor
cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados
seguacuten el intereacutes del usuario
114
RESULTADOS DE LOS EXPERIMENTOS
Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios
Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios
21 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
USUARIOS
Valo
r
ORDEN AZAR
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
115
RESULTADOS DE LOS EXPERIMENTOS
A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los
titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los
titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el
usuario escogiese todos los titulares recomendados por el sistema De esta manera se
obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos
de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de
0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos
los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376
en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un
220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios
116
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
12
USUARIOS
Valo
r
ORDEN AZAR
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
752 Error Absoluto Medio y Coeficiente de Correlacioacuten
En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se
presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso
ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes
medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y
porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece
En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten
experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula
(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se
representan estos resultados
En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten
experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en
la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente
117
RESULTADOS DE LOS EXPERIMENTOS
Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051
σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019
r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten
entre titulares en la sesioacuten experimental 30 por 15 usuarios
Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000
005
010
015
020
025
030
035
USUARIOS
Valo
r
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y
la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior
a 015 y una Desviacioacuten Estaacutendar media inferior a 005
Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios
experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025
obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2
11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos
los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios
118
RESULTADOS DE LOS EXPERIMENTOS
es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la
conclusioacuten anterior
Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten
entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios
En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten
entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los
usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente
un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares
propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten
753 La R-Precisioacuten
Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute
al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el
caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder
calcular entonces la precisioacuten en la posicioacuten R del orden
119
RESULTADOS DE LOS EXPERIMENTOS
La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten
del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones
experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los
titulares ordenados al usuario
En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los
15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan
en la figura 713
Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
01
02
03
04
05
06
07
08
09
10
USUARIOS
Valo
r
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el
sistema La media mayor es la del usuario 11 y la menor es la del usuario 8
En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten
para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que
maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]
120
RESULTADOS DE LOS EXPERIMENTOS
del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario
ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de
0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para
la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten
media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo
Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la
R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones
experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones
experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media
para esta medida el 11
En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos
por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia
de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se
calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la
pendiente y b es la interseccioacuten
Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios
y = 00058x + 03154
y = 00132x + 05664
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30
sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una
evolucioacuten favorable de la R-Precisioacuten
121
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de
la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de
tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en
ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo
para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de
titulares
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en el
experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como
medida alternativa en la seccioacuten 531 del capiacutetulo 5
En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas
noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno
para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el
usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan
en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De
esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de
resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante
la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el
mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten
Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP
CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no
resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna
manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en
ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares
similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo
Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados
sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la
sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo
la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la
puntuacioacuten media ideal que en el caso ldquoCOSrdquo
122
RESULTADOS DE LOS EXPERIMENTOS
Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los
valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica
que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo
En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r
en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la
figura 715 se representan graacuteficamente estos datos
Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias
caso r r
COS 0989 0964
JAC 0989 0936
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30
junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo
Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC
COS media COS JAC media JAC06
07
08
09
10
11
Valo
r
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de
Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y
ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo
123
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la
sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y
ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso
ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la
Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien
puntuados por el sistema
Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones
en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento
al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de
Jaccard
En general se puede concluir que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la
calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste
experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no
de una palabra en dicho perfil de usuario
77 Resumen
En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en
los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema
propuesto y su eficacia con diversos usuarios
El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema
considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con
nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de
los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos
versiones configuradas del sistema una considerando los resuacutemenes y otra sin
considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en
concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas
mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD
que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el
objeto de determinar que efectivamente existen diferencias significativas entre las dos
alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten
de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se
mantendraacute para el resto de experimentos
124
RESULTADOS DE LOS EXPERIMENTOS
En el segundo experimento (DIV) se probaron diversos valores para el intervalo de
vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En
este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas
propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse
exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados
del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece
significativamente al sistema por lo que finalmente se desestimoacute su uso
El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores
proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten
seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los
resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes
similitudes en el comportamiento de los pares considerados experimentalmente se observoacute
la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media
aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado
El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas
en el primer experimento (CRS) pero en este caso considerando los valores que se han
determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En
este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para
los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables
cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil
de usuario confirmando por tanto las conclusiones del primer experimento
El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con
diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo
realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales
Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la
misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes
necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de
titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario
correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el
sistema configurado para que ofreciera los titulares aleatoriamente al usuario
Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten
las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de
titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la
125
RESULTADOS DE LOS EXPERIMENTOS
Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen
funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la
puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge
cada usuario
Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten
obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se
analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los
usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos
una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un
comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente
mejores ordenaciones de titulares
Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida
distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida
del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores
medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos
medidas concluyendo por tanto que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten elegido
126
Capiacutetulo 8
CONCLUSIONES
En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo
para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de
fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus
preferencias
En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de
informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos
Posteriormente se describieron los aspectos a tener en cuenta para definir y crear
perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de
usuario y las teacutecnicas de inferencia asociadas
El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la
bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer
un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un
agregador inteligente que recomienda contenidos al usuario denominado NectaRSS
Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf
descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de
titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la
medida de Jaccard
Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y
se comproboacute su validez
Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de
investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS
127
CONCLUSIONES
81 Principales Aportaciones y Conclusiones
Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten
Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de
recomendar eacutesta a un usuario seguacuten sus preferencias
Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y
confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial
de seleccioacuten de la informacioacuten ofrecida
Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para
dar la informacioacuten maacutes relevante
Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se
realizan de manera totalmente transparente al usuario
Se han evaluado diferentes estrategias y opciones para que el resultado del sistema
sea oacuteptimo
Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para
distintos usuarios heterogeacuteneos
Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las
ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para
eacuteste que un orden aleatorio
Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se
aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente
128
CONCLUSIONES
elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los
titulares desde el punto de vista del usuario
El sistema demuestra un funcionamiento adecuado para distintos usuarios
El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la
informacioacuten elegido
El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a
sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica
puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que
realmente le interesa sin tener que realizar ninguna otra accioacuten adicional
82 Liacuteneas de investigacioacuten futuras
El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de
investigacioacuten originales que se considera de intereacutes abordar
Determinar el rendimiento del sistema considerando conjuntos de palabras
encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario
Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos
que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en
la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario
Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la
suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario
Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se
mantenga un perfil para cada usuario que visite la paacutegina de los titulares de
129
CONCLUSIONES
informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la
proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de
especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo
Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten
del perfil de usuario
Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses
Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la
informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen
distintos usuarios con perfiles similares
Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a
las que el usuario haya preseleccionado
130
Bibliografiacutea y Referencias
[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive
interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 22-32
[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a
Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso
(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia
Italy Wien SpringerWienNewYork 365-376
[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and
clique-based user models for movie selection a comparative study User Modeling and User Adapted
Interaction 7(4) 279-304
[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture
for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 59-61
[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable
system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159
[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and
Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998
[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press
Addison-Wesley 1999
[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In
Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey
USA 378-385
131
BIBLIOGRAFIacuteA Y REFERENCIAS
[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated
real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 215-226
[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan
recognition User Modeling and User Adapted Interaction 5(3-4) 317-348
[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989
[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier
Science Publishers 1990
[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext
reading system User Modeling and User Adapted Interaction 4(1) 1-19
[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user
modeling systems International Journal of Human-Computer Studies 40 31-62
[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible
Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004
httpwwww3orgTR2004REC-xml11-20040204
[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of
predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on
Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52
[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM
Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT
Press
[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation
Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean
VA Nov 2000 pp 227-234
httpwwwittckueduobiwan
132
BIBLIOGRAFIacuteA Y REFERENCIAS
[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles
Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer
Science Florida Institute of Technology Melbourne Australia
httpciteseeristpsueduchan99noninvasivehtml
[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W
Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989
[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London
Library Association 1999
[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the
Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project
Cranfield (1966)
[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the
American Society for Information Science v 24 March-April 1973 p87-92
[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing
interests International Journal on Digital Libraries 2 (1) 38-53
[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing
amp Management 23 4 1987 p 249-254
[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos
(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes
[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW
The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994
httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml
[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML
Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas
Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre
de 1998
133
BIBLIOGRAFIacuteA Y REFERENCIAS
[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW
Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998
[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW
Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001
httpservidortiuibesadelaidaCIVEadecivehtm
[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval
Journal of the American Society for Information Science 51 (7) 2000 p 614-624
[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005
httpwwwfeedstercom
[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-
site management system SIGMOD Record 26(3) 4-11 1997
[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information
provision for all users including disabled and elderly people The New Review of Hypermedia and
Multimedia 4 163-188
[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego
Academic Press cop1997 XIV 365 p
[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de
Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos
Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12
Nov de 2002
[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-
Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal
In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies
Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer
Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56
134
BIBLIOGRAFIacuteA Y REFERENCIAS
[Goo 2005] Google Directory RSS News Readers Julio de 2005
httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science
Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers
[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and
heuristics Boston Kluwer Academia Publishers 1998
[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S
The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference
Brisbane Australia 1998
[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic
Publishers 1994
[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system
for supporting information providers in directing users through hyperspace Proceedings of the 3rd on
Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and
Hypermedia 147-156
[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices
in a virtual community of use In Proceedings of CHI 95 Denver CO 1995
[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a
declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-
Oriented Database (DOOD) pages 386-398 Singapore 1997
[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search
engines to query AI Magazine 18(2) 19-25 1997
[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999
httpwwww3orgTRhtml401
135
BIBLIOGRAFIacuteA Y REFERENCIAS
[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an
overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251
1996
[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web
Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th
international conference on World Wide Web 2004
[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext
client of the user modeling system BGP-MS Proceedings of the 4th International Conference on
User Modeling 99-105
[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell
system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106
[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl
J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM
40(3) 77-87
[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley
Computer Publisher 1997
[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface
integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support
ergonomic design of manually and automatically adaptable software Lawrence Erlbaum
97-125
[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW
Conference Santa Clara CA USA 1997
[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington
Virginia Information Resources 1993
[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995
136
BIBLIOGRAFIacuteA Y REFERENCIAS
[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the
14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-
1710
[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer
collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International
Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf
[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of
the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-
929
[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis
Doctoral Universitat Jaume I Castelloacuten 2002
[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva
perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la
Informacioacuten (JOTRI) 2002
[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the
ACM 37 (7) 31- 40
[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86
[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press
1993
[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la
evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de
Documentacioacuten Nordm 7 pp 153-170 2004
[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten
de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten
II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004
137
BIBLIOGRAFIacuteA Y REFERENCIAS
[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user
preferences ontologies in recommender systems In Proceedings of the 1st International Conference
on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001
[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based
inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-
282
[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D
1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91
[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive
information access to scholarly publications on the Web Artificial Intelligence Laboratory
Department of Mathematics and Computer Science 2002
[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL
Development Officer Heriot-Watt University Edinburgh UK 2003
[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering
and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996
[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel
httpwwwuninechinfoclef
[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World
Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997
[OBIWAN 1999] OBIWAN Project University of Kansas 1999
httpwwwittckueduobiwan
[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system
User Modeling and User Adapted Interaction 4 (2) 107-130
[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User
Modeling and User Adapted Interaction 4 (3) 197-226
138
BIBLIOGRAFIacuteA Y REFERENCIAS
[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C
1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay
(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-
Verlag 45-54
[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert
Identifying interesting web sites Proceedings of the 13th National Conference on Artificial
Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml
[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval
progress report Information Processing and Management 36 2000 p 155-178
[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St
Augustin Germany
[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales
assistants User Modeling and User Adapted Interaction 5(3-4) 349-370
[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993
[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea
httpwwwraees
[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online
recruitment environment Smart Media Institute University College Dublin Ireland
mayacsdepauledu~mobasheritwp01papersrafterpdf
[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search
httpwwwcsutexaseduusersmooney
[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues
and Options Workshop House subcommittee on science research and technology
Washington DC Nov 3 1976
139
BIBLIOGRAFIacuteA Y REFERENCIAS
[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354
[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second
edition 1979 httpwwwdcsglaacukKeith
[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal
of American Society for Information Science 27(3)129-46 1976
[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD
Thesis Harvard University Report ISR-10 to National Science Foundation Harvard
Computation Laboratory (1966)
[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center
Editor Dave Winer En liacutenea julio de 2005
httpblogslawharvardedutechdirectory5aggregators
[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005
httpwwwrssfeedscomreadersphp
[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for
the web Communications of the ACM 40(3) 66-73
[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L
Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001
Enero 2003
[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971
[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer
Science Series McGraw-Hill 1983
[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of
Information by-Computer Addison-Wesley 1998
140
BIBLIOGRAFIacuteA Y REFERENCIAS
[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI
NOVATICA nordm 158 pag 5-9 2002
[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation
Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp
115-152
[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive
Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling
[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler
4th Int WWW Conference 1995
[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en
Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005
httpwwwsiaeuiupmesgruposAinfo2pdf
[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example
MIT Lab Cambridge USA
[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones
sobre Literatura en Espantildeol 2003
httppeterpaneuiupmesindexhtml
[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal
of Man-Machine Studies 23 71-88
[Snow 2005] Snowball httpsnowballtartarusorg
[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of
Documentation 31(4)266-72 1975
[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information
Processing and Management 15(3)133-44 1979
141
BIBLIOGRAFIacuteA Y REFERENCIAS
[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML
Technical report Text Encoding Initiative 1996
[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist
user modeling in a complex commercial software system User Model and User-Adapted Interaction
10 (2-3) 109-146
[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic
user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings
of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien
SpringerWien NewYork 189-200
[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited
Information Processing and Management 28 4 pp 467-490 1994
[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability
and usefulness of the WWW 5th International Conference on User Modeling 5-12
[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten
sobre Estructura y Contenido 1999
[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of
the American Society for Information Science 48(2) 1997 p133-142
[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a
methodology for production coherent consistent dynamically changing models of agentrsquos competencies User
Modeling and User Adapted Interaction 5 (2) 117-150
[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the
Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss
[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley
1949
142
Anexo I Lenguajes de definicioacuten de documentos
En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la
recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos
de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute
parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a
introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de
XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el
segundo denominado Atom con un cometido muy parecido al RSS
Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan
tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los
documentos para delimitar los elementos de estructura Por una parte diferenciaremos
entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de
distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de
definicioacuten de un tipo de documento concreto es decir una instancia de SGML
SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por
iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del
mundo editorial que son los contenidos y la forma de presentar esos contenidos en este
caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el
contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML
permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un
lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene
nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este
lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en
[Herwijnen 1994]
AI1 Hypertext Markup Language
HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado
que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su
estructura y contenido
AI-1
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia
difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su
consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]
El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes
documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que
sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria
sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador
que se utilice el responsable de asegurar que el documento tenga un aspecto coherente
independientemente del tipo de maacutequina desde donde se acceda al documento De esta
manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que
facilita enormemente su manejo por cualquier persona
HTML es un lenguaje muy sencillo que permite preparar documentos Web
insertando en el texto de los mismos una serie de etiquetas o tags que controlan los
diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas
que controlan el comportamiento del documento son fragmentos de texto encerrados entre
aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan
simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten
imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento
Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas
con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]
AI12 Evolucioacuten del Lenguaje HTML
El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico
objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre
fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el
lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se
habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador
realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el
sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994
Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se
descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de
HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo
borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades
AI-2
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de
expresiones matemaacuteticas
Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten
en HTML lenguaje apropiado para elaborar de manera sencilla documentos con
posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo
tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML
No se permite que el usuario especifique su propias etiquetas o atributos para
parametrizar o cualificar semaacutenticamente sus datos
No soporta la especificacioacuten de estructuras complicadas para representar esquemas
de bases de datos o jerarquiacuteas orientadas al objeto
No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar
la validez estructural de los datos en el momento de su importacioacuten
AI2 Extensible Markup Language
Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes
de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C
creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para
desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las
aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de
construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y
directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de
estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser
utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de
2005 es la 11 [Bray 2004]
Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la
Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar
Este subconjunto diferiraacute de HTML en tres aspectos fundamentales
1 Se pueden definir nuevas etiquetas y atributos
2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de
complejidad
AI-3
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
3 Cualquier documento XML puede contener una descripcioacuten opcional de su
gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una
validacioacuten estructural
El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el
contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron
[Bray 2004]
Debiacutea ser directamente utilizable sobre Internet
Debiacutea ser compatible con una amplia variedad de aplicaciones
Debiacutea ser compatible con SGML
Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML
Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero
Los documentos XML deberiacutean ser legibles y razonablemente claros
Un disentildeo de XML deberiacutea poderse preparar raacutepidamente
El disentildeo de XML debiacutea ser formal y conciso
Los documentos XML deben ser faacuteciles de crear
AI21 Estructura de XML
Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de
otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los
empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee
normalmente reflejando el tipo de contenido que delimitan
Un ejemplo de sencillo documento XML se muestra a continuacioacuten
ltpersonagt
ltnombre_completogt
ltnombregtJuanltnombregt
ltapellidosgtPeacuterez Fernaacutendezltapellidosgt
ltnombre_completogt
lttrabajogtfontanerolttrabajogt
ltpersonagt
AI-4
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos
elementos hijos del anterior denominados nombre_completo y trabajo En un
documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo
Aunque no es estrictamente obligatorio los documentos XML deben tener una
declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la
codificacioacuten del texto del documento encoding y la autonomiacutea del documento
standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten
externa para determinar los valores apropiados de ciertas partes del documento Una
declaracioacuten ejemplo es la siguiente
ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt
Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor
adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo
un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo
ltpersona nacida=rdquo23-06-1912rdquogt
Alan Turing
ltpersonagt
AI22 Documentos XML bien-formados
Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe
cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son
Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca
final ldquoltrdquo
Los elementos pueden estar anidados pero no superpuestos
Soacutelo puede existir un elemento raiacutez
Los valores de los atributos deben ir entrecomillados
Un elemento no puede tener dos atributos con el mismo nombre
Los comentarios y las instrucciones de proceso no pueden aparecer entre las
marcas
AI-5
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI23 Especificaciones XML
Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas
especificaciones para XML destacando las siguientes
DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento
Contendraacute una definicioacuten formal de un tipo de documento y a la vez una
especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina
como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado
concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional
en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar
bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se
dice que el documento XML es vaacutelido
XML Schema Es una manera de definir tipos de documentos alternativa a DTD
resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue
especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute
fechada a junio de 20052
XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo
de los documentos escritos para XML Permite modificar el aspecto de un
documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL
Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute
definir transformaciones en forma de reglas para convertir un documento XML en
otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir
el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas
bloques de texto en las paacuteginas graacuteficos y muchos otros
Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes
particulares de un documento XML Como soporte para este objetivo principal
tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y
booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de
1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath
AI-6
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un
documento XML
Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos
XML Los enlaces podraacuten ser simples como los habituales en HTML
bidireccionales enlazando dos documentos en ambas direcciones y
multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de
documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML
AI3 Rich Site Summary
ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir
faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para
utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros
muchos tales como los blogs7 o diarios personales en la Web
Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en
una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a
una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es
accesible mediante el enlace del fichero RSS
Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF
Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que
estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una
coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos
simultaacuteneamenterdquo [Moffat 2003]
AI31 Historia y Origen de RSS
Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en
su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado
6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html
AI-7
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador
ofreciendo una forma muy simple de publicar contenidos y permitiendo a los
desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo
Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten
anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la
aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos
RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como
propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado
por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de
extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten
constantemente Generalmente los ficheros se guardan con extensioacuten RDF
RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten
basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado
de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de
su objetivo proporcionar una herramienta para publicar contenidos de una forma
raacutepida y sencilla en la Web
AI32 RSS 092
Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente
compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son
opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido
Elementos obligatorios
En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el
documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o
canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a
continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss
AI-8
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio
ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt
ltdescriptiongt -- La frase que describe el canal
Elementos opcionales
ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos
son opcionales y otros tres son requeridos
lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal
lttitlegt -- Describe la imagen
ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los
elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del
canal
Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son
nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt
contendraacute un texto relacionado con el renderizado de la imagen en HTML
ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los
agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una
uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo
ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal
ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de
contacto para cuestiones de edicioacuten
ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de
contacto si existen problemas teacutecnicos
ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal
ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en
RSS estaraacuten conformes a la especificacioacuten RFC 82215
14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs
AI-9
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal
ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato
utilizado en el fichero RSS
lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione
realimentacioacuten en forma de texto Contiene varios sub-elementos que son
requeridos
lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto
ltdescriptiongt -- Describe el area de texto donde se escribe
ltnamegt -- Nombre del objeto de texto
ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto
ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos
del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o
Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en
este elemento
ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos
de hora que representan la hora en formato GMT17 Los lectores de noticias no
leeraacuten el canal durante las horas especificadas en este elemento
15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich
AI-10
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
iquestQueacute es un iacutetem
Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben
contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno
de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute
compuesto por los siguientes elementos opcionales
lttitlegt Es el tiacutetulo de la noticia
ltlinkgt Direccioacuten Web que apunta a la noticia
ltdescriptiongt Es el resumen de la noticia
Nuevos elementos respecto a la versioacuten RSS 091
ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal
RSS de donde proviene el item se deriva del tiacutetulo
ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto
adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra
ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten
el estaacutendar MIME18
ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo
opcional domain que identificaraacute la categoriacutea en una taxonomiacutea
ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un
servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal
18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje
AI-11
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 092
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un
canal y un elemento item
ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt
ltrss version=092gt
ltchannelgt
lttitlegtELPAISeslttitlegt
ltlinkgthttpwwwelpaisesltlinkgt
ltdescriptiongtRSS de ELPAISesltdescriptiongt
ltlanguagegtes-esltlanguagegt
ltitemgt
lttitlegtEspantildea consigue sus primeros oros en los Juegos del
Mediterraacuteneolttitlegt
ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt
ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una
exitosa jornada de competicioacuten donde sumoacute un total de 23
medallasltdescriptiongt
ltitemgt
ltchannelgt
ltrssgt
En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten
de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y
el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y
descripcioacuten correspondientes
AI-12
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI33 RSS 20
Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible
con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20
vaacutelido
Nuevos elementos respecto a la versioacuten anterior
Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan
definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han
incorporado los siguientes
ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la
direccioacuten Web donde se encuentran los comentarios acerca del item
ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el
programa que ha generado el archivo RSS
ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la
direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la
persona que ha escrito el artiacuteculo
ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de
vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el
canal en memoria antes de ser refrescado
ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que
indica cuaacutendo fue publicado el item
ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador
uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el
item es nuevo o no
AI-13
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 20
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un
canal y dos elementos item
ltxml version=10 encoding=utf-8 gt
ltrss version=20gt
ltchannelgt
lttitlegtEl Blog Salmoacutenlttitlegt
ltlinkgthttpwwwelblogsalmoncomltlinkgt
ltdescriptiongtEl Blog Salmoacutenltdescriptiongt
ltcopyrightgtCopyright 2005ltcopyrightgt
ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt
ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt
ltdocsgthttpblogslawharvardedutechrssltdocsgt
ltitemgt
lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt
ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt
ltitemgt
ltitemgt
lttitlegtVuelven las nacionalizacioneslttitlegt
ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt
ltitemgt
ltchannelgt
ltrssgt
Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS
tales como ltgeneratorgt y ltpubDategt
AI-14
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI4 Atom
Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten
de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la
distribucioacuten de contenidos y noticias de sitios web
Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares
similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de
muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en
proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom
La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005
Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda
raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener
maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS
Un ejemplo de Atom 10
Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una
sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de
RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt
ltxml version=10 encoding=utf-8gt
ltfeed xmlns=httpwwww3org2005Atomgt
lttitlegtEjemplo de entradalttitlegt
ltlink href=httpexampleorggt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltauthorgt
ltnamegtJuan Jltnamegt
ltauthorgt
ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt
ltentrygt
lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt
ltlink href=httpexampleorg20031213atom03gt
ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltsummarygtTexto del resumenltsummarygt
ltentrygt
ltfeedgt
19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html
AI-15
Anexo II Un Agregador Inteligente
Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos
disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa
desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el
mismo nombre por simplicidad
La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones
que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o
usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y
seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen
es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como
cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al
usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se
muestra el aspecto usual del programa
Figura AII1 Aspecto principal del programa NectaRSS
AII-1
UN AGREGADOR INTELIGENTE
Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea
acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute
otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya
subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre
seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos
tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS
Para efectuar los experimentos se dotoacute al programa de un modo de trabajo
especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni
destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha
considerado para no condicionar en modo alguno las decisiones del usuario experimental a
la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura
AII3
AII-2
UN AGREGADOR INTELIGENTE
Figura AII3 Aspecto del programa NectaRSS en modo experimento
Adicionalmente el programa genera una paacutegina web con las recomendaciones de
titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin
httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del
diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los
visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute
personalizado para un usuario concreto puede resultar interesante a personas que
compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en
la figura AII4
AII-3
UN AGREGADOR INTELIGENTE
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el
programa NectaRSS
A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la
evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del
programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los
experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos
resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores
numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo
informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad
AII-4
UN AGREGADOR INTELIGENTE
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema
Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web
Diario El Mundo (httpabraldesnetfeedselmundoxml)
Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)
Barrapunto (httpbackendsbarrapuntocombarrapuntorss)
Diario Marca (httpabraldesnetfeedsmarcaxml)
Kriptoacutepolis (httpwwwkriptopolisorgrss)
eCuaderno (httpwwwecuadernocomindexxml)
xataka (httpxatakacomesindexxml)
alzadoorg (httpwwwalzadoorgxmlalzadoxml)
Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)
tintachina (httpwwwtintachinacomindexxml)
Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)
Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)
TIME Magazine (httprsstimecomwebtimersstopindexxml)
CNET reviews (httpreviewscnetcom4924-5_7-0xml)
Artnovela (httpwwwartnovelacomarbackendphp)
Blogdecine (httpwwwblogdecinecomindexxml)
Stardustcf (httpwwwstardustcfcomrdfasp)
Una furtiva mirada (httpfurtivosbloxuscomrdfxml)
Pedro Jorge (httpwwwpjorgecomrss)
Atalaya (httpatalayablogaliacomrdfxml)
Malos Pensamientos (httpmpblogaliacomrdfxml)
Libryscom (httpwwwlibryscomfeedrss)
El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)
AII-5
A mi hijo
i
ii
Agradecimientos
Mi respeto y agradecimiento profundo a todas las personas que me han
ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis
Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su
paciencia y dedicacioacuten
iii
iv
Resumen
En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten
denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los
intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las
preferencias del usuario evitando la realimentacioacuten expliacutecita
Se realiza una revisioacuten de todos los conceptos relacionados con el sistema
mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el
problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente
Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la
implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos
demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses
de cada individuo
Abstract
In this thesis a new system called NectaRSS for information retrieval and filtering is
presented The system recommends information to a user based on his past choices The
method automatically accomplishes the task of user preferences acquisition avoiding
explicit feedback
In this work a review of all the concepts related to the system is first performed
showing different approaches to the problem of user profile construction emphasizing
web information retrieval systems where NectaRSS will be initially applied
The efficiency of the proposed method is proved applying it to the implementation
of an intelligent aggregator used by different and heterogeneous users proving its ability to
offer the information personalized according to each individualrsquos interests
v
vi
IacuteNDICE GENERAL
Agradecimientosiii
Resumen v
IacuteNDICE GENERAL vii
IacuteNDICE DE FIGURAS xi
IacuteNDICE DE TABLAS xv
1 INTRODUCCIOacuteN 1
11 Organizacioacuten de la tesis 2
2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5
21 Introduccioacuten5
22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7
2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13
222 El Modelo Probabiliacutestico 17
23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20
2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26
Navegadores 26 Agregadores de contenidos 27
233 Sistemas de recomendacioacuten 29
24 Resumen 31
3 EVALUACIOacuteN DE LOS SISTEMAS RI 33
31 Relevancia y Pertinencia 33
32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41
vii
IacuteNDICE GENERAL
324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45
3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46
33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50
34 Resumen 52
4 PERFILES DE USUARIO 55
41 iquestQueacute es un Perfil 55
42 Meacutetodos de creacioacuten de perfiles 56
43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60
44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61
4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61
442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63
4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64
45 Realimentacioacuten del usuario 64
46 Agentes Software y creacioacuten de perfiles 66
47 Modelos Estadiacutesticos 67
48 Razonamiento Basado en Reglas 68
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario
automaacutetico 68
410 Resumen 70
viii
IacuteNDICE GENERAL
5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS
BASADO EN PERFILES 73
51 Introduccioacuten73
52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de
navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario
77
53 Caacutelculo de la puntuacioacuten de los titulares79
531 Puntuacioacuten alternativa de los titulares 81
54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82
55 Resumen 83
6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85
61 Objetivo general del sistema y esquema de su experimentacioacuten 85
62 Metodologiacutea seguida 86
63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90
64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99
65 Resumen 100
7 RESULTADOS DE LOS EXPERIMENTOS101
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106
73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113
ix
IacuteNDICE GENERAL
752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122
77 Resumen 124
8 CONCLUSIONES 127
81 Principales Aportaciones y Conclusiones 128
82 Liacuteneas de investigacioacuten futuras 129
Bibliografiacutea y Referencias131
Anexo I Lenguajes de definicioacuten de documentos AI1
AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2
AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6
AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13
AI4 Atom AI15
Anexo II Un Agregador Inteligente AII1
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5
x
IacuteNDICE DE FIGURAS
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57
Figura 51 Vista general del sistema NectaRSS propuesto 74
xi
IacuteNDICE DE FIGURAS
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116
xii
IacuteNDICE DE TABLAS
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123
Figura AII1 Aspecto principal del programa NectaRSS AII1
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2
Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4
xiii
IacuteNDICE DE TABLAS
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105
xv
IacuteNDICE DE TABLAS
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123
xvi
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA
PRESENTE MEMORIA
RI Recuperacioacuten de Informacioacuten
SRI Sistema de Recuperacioacuten de Informacioacuten
E-P Par Exhaustividad-Precisioacuten
P Perfil de usuario
Ps Perfil de sesioacuten
Pr Perfil de resumen
T Conjunto de titulares
E(T) Conjunto de titulares elegidos
D(T) Conjunto de titulares destacados
CRS Con Resumen ndash Sin resumen
DIV Determinacioacuten del Intervalo de Vida
IRP Importancia Relativa de los Perfiles
CRS2 Con Resumen ndash Sin resumen (2)1
PAU Prueba del Algoritmo con diferentes Usuarios
PPA Probar Puntuacioacuten Alternativa
tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di
tfhk Frecuencia del teacutermino tk en el titular h
wij Relevancia del teacutermino tj en el documento di
wh Vector caracteriacutestica del titular h
sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh
fol Factor de olvido
CP Tasa que mide el porcentaje de titulares elegidos
1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros
xvii
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS
CR Tasa que mide el porcentaje de titulares ofrecidos destacados
CT Tasa que mide el porcentaje de titulares elegidos destacados
CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la
puntuacioacuten media maacutexima
E Error Absoluto Medio
σ Desviacioacuten Estaacutendar del Error
r Coeficiente de Correlacioacuten entre titulares
RP(i) R-Precisioacuten en la sesioacuten i
xviii
Capiacutetulo 1
INTRODUCCIOacuteN
En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente
indispensable y en la principal fuente de informacioacuten para una parte importante de la
poblacioacuten del mundo desarrollado
Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de
2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se
tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o
intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo
tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de
fuentes muy variadas
En general dada la gran cantidad de fuentes de informacioacuten disponibles
actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de
un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente
inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada
hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten
ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que
una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos
maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que
pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten
ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma
automaacutetica
Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de
informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias
que denominaremos NectaRSS
1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom
1
INTRODUCCIOacuteN
Como segundo objetivo buscaremos una forma de obtener las preferencias del
usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en
el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten
incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya
realizando tal usuario
Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear
ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes
estrategias y opciones para que el resultado sea oacuteptimo
11 Organizacioacuten de la tesis
Esta tesis se organiza de la forma siguiente
El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y
de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial
de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de
recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la
relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado
automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como
sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten
especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho
contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se
fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de
la Web en particular y en conocer los modelos tiacutepicos para representar los
documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute
el modelo vectorial
En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas
de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la
pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten
destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad
principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar
la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se
tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas
alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la
2
INTRODUCCIOacuteN
medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las
teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario
para aplicar dichas teacutecnicas al sistema experimental NectaRSS
El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes
se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas
para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de
adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la
adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil
de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de
razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la
realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil
correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas
utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los
modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o
ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas
Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web
basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro
trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de
usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las
preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para
representar las preferencias de eacuteste
En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y
recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador
inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema
comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil
de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la
utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute
coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del
coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema
propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la
base teoacuterica que subyace en dicho sistema
El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se
expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea
3
INTRODUCCIOacuteN
seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la
experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que
se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del
sistema en base a las variables consideradas en los experimentos distinguiendo
distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten
referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de
informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el
usuario respecto a la que le ofrece el sistema empleando para ello medidas como el
Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la
R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute
medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental
propuesto NectaRSS
En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados
obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer
conclusiones que permitan determinar diversos paraacutemetros del sistema y para
evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando
su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la
efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas
que evaluacutean su funcionamiento
Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales
aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido
y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la
tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir
de la investigacioacuten con NectaRSS
4
Capiacutetulo 2
LOS SISTEMAS DE RECUPERACIOacuteN DE
INFORMACIOacuteN
En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado
en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI
o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos
modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten
de informacioacuten en la Web y los sistemas de recomendacioacuten
El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis
NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea
de intereacutes de los usuarios analizando para ello el contenido de los documentos se
realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de
cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se
realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las
preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta
manera se podraacute recomendar la informacioacuten a cada usuario
21 Introduccioacuten
La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una
determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow
1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es
traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada
por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]
Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos
relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman
1998]
Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por
Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten
5
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza
define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de
informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos
relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo
[Baeza 1999]
Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno
recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se
diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los
gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un
conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que
determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la
peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de
indizacioacutenrdquo
Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel
conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]
22 Modelos para la recuperacioacuten de informacioacuten
Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se
obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar
la relevancia de un documento respecto a una consulta los meacutetodos para establecer la
importancia u orden de los documentos de salida y los mecanismos que permiten una
realimentacioacuten por parte del usuario para mejorar la consulta
Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por
[Dominich 2000] que se muestra en la tabla 21
Partiendo de la tarea inicial que realiza el usuario es posible realizar una
clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de
informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de
documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se
introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de
estructura guiada o de hipertexto seguacuten puede verse en la tabla 22
6
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Modelo Descripcioacuten
Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial
Alternativos Basados en la Loacutegica Fuzzy
Loacutegicos Basados en la Loacutegica Formal
Basados en la
interactividad
Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de
retroalimentacioacuten por relevancia
Basados en la
Inteligencia Artificial
Redes neuronales bases de conocimiento algoritmos geneacuteticos y
procesamiento de lenguaje natural
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente
[Dominich2000]
Vista loacutegica de los documentos
Teacuterminos iacutendice Texto Completo Texto Completo +
Estructura
Recuperacioacuten Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Estructurados
Mod
alida
d
Navegacioacuten Estructura plana Estructura plana
Hipertexto
Estructura guiada
Hipertexto
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la
modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]
221 El Modelo Vectorial
Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el
modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada
documento estaba representado por un vector de teacuterminos y cada componente del vector
representaba el peso wij del teacutermino tj presente en el documento di De esta manera la
representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)
donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento
di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino
Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en
funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una
coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera
a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21
7
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t1 t2 t3 hellip tj hellip tm
d1 w11 w12 w13 hellip w1j hellip w1m
d2 w21 w22 w23 hellip w2i hellip w2m
di wi1 wi2 wi3 hellip wij hellip wim
dn wn1 wn2 wn3 hellip wnj hellip wnm
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]
Una consulta podraacute representarse de igual misma manera que un documento
asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia
de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)
En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos
tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di
dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj
A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten
wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento
Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos
Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por
[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y
su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten
mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las
palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e
idf representa la frecuencia inversa del documento
8
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre
dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22
[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los
sistemas RI vectoriales
Medida de Similitud Modelo Vectorial
Producto escalar sum=sdot
m
i ii YX1
Coeficiente de Dice sum sum
sum= =
=
+
sdotsdotm
i
m
i ii
m
i ii
YX
YX
1 122
12
Coeficiente del coseno sum sumsum= =
=
sdot
sdotm
i
m
i ii
m
i ii
YX
YX
1 122
1
Coeficiente de Jaccard sumsum sum
sum== =
=
sdotminus+
sdotm
i iim
i
m
i ii
m
i ii
YXYX
YX
11 122
1
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]
Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno
mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten
como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la
medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de
teacuterminos como
sum sumsum
= =
=
sdot
sdot=
sdotsdot
=m
1j
m
1j2kj
2ij
m
1j kjij
ki
kiki
ww
ww
qdqd)qsim(d rrrr
(21)
Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede
observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una
consulta q respecto a los ejes t1 t2 y t3
9
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t3
t1
t2
d1 = 2t1+ 3t2 + 5t3
d2 = 3t1 + 7t2 + 1t3
q = 0t1 + 0t2 + 2t3
7
32
5
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo
vectorial Fuente [Raymond 2005]
El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se
efectuaraacute como sigue
810)400()2594(
52)( 1 =++sdot++
sdot=qdsim
130)400()1499(
12)( 2 =++sdot++
sdot=qdsim
teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)
De los resultados se deduce que el documento d1 es bastante maacutes similar a la
consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que
representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que
representa a d2 y el vector que representa a q tal y como puede verse en la figura 24
10
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
θ2
t3
t1
t2
d1
d2
q
θ1
θ2
t3
t1
t2
d1
d2
q
θ1
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la
consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]
Al contar con una medida de similitud como la del coseno entre cada documento y
una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los
documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)
sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no
exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente
de similitud
2211 Realimentacioacuten de la Relevancia
Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un
juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta
informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta
A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia
Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de
documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de
este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con
los documentos identificados previamente como relevantes y al mismo tiempo que sea
menos similar a los documentos marcados como poco relevantes por el usuario De esta
manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos
documentos irrelevantes que las consultas previamente formuladas
11
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
La reformulacioacuten de consultas se basa en las dos operaciones complementarias
siguientes
Los teacuterminos que aparecen en los documentos identificados previamente como
relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso
se incrementaraacute por un factor si ya se encontraban en dicho vector
Los teacuterminos que aparecen en los documentos previamente identificados como
no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso
seraacute reducido
Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como
se requiera para mejorar el resultado de la consulta
2212 Agrupacioacuten o ldquoclusteringrdquo de documentos
La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un
documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre
pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre
ellos puede definirse como
sum sumsum
= =
=
sdot
sdot=
sdot
sdot=
m
k
m
k jkik
m
k jkik
ji
jiji
ww
ww
dd
ddddsim
1 122
1)( rr
rr
(22)
Si determinamos la similitud entre pares de documentos se podraacute construir un
agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un
representante de esa clase denominado centroide
Dado un conjunto de m documentos que constituyen una clase p el centroide
Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los
documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p
puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de
documentos en la clase p
m
wc
m
1i ikpk
sum== (23)
12
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
De esta manera al organizar los documentos en clases la buacutesqueda de un
documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los
centroides de cada clase calculando los correspondientes coeficientes de similitud Luego
los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se
compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos
que resulten similares a la consulta
Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada
una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones
entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales
2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos
La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso
de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se
determinan los teacuterminos representativos del contenido de un documento y segundo se
asigna a cada teacutermino un peso o valor que refleje su importancia como representante del
contenido del documento
La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos
que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el
resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa
la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes
profundo
La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la
frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la
importancia de ese teacutermino como representante del contenido del documento Si
ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de
aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y
como enuncia la ley de Zipf en [Zipf 1949]
zordenfrecuencia asympsdot (24)
Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en
el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada
por el suyo correspondiente
13
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino
basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los
siguientes pasos
1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino
tj en cada documento di tfij
2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten
completa sumando sus frecuencias en los n documentos
sum==
n
1i ijj tftf_tot
3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas
que tengan un valor superior a un umbral dado para excluir las palabras
muy frecuentes
4 Del mismo modo se eliminan las palabras poco frecuentes
5 Las palabras restantes con una frecuencia media se utilizaraacuten para
caracterizar los documentos indexados
Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que
establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de
aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de
resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems
relevantes [Vegas 1999]
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]
14
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir
peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes
puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales
correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto
nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto
y su sustitucioacuten por frecuencias relativas mediante diversas estrategias
La Frecuencia de Documento Inversa Consiste en asumir que la importancia del
teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada
documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se
encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del
teacutermino tj en el documento di como
wij = tfij dfi (25)
El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso
de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de
documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)
para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud
generan valores entre 0 para documentos sin similitud y 1 para documentos
completamente iguales
Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se
puede calcular una similitud media para la coleccioacuten
sumsum= =
=n
1i
n
1jji )dsim(dcsim con i ne j (26)
donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una
medida de la densidad del espacio de documentos el grado en que los documentos se
agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim
tendriacutea el valor c n(n - 1) = 1
15
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para calcular de manera maacutes eficiente la densidad del espacio de documentos se
puede obtener un documento medio d como centroide cuyos teacuterminos se supone que
poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se
definiraacute como
sum=
=n
1iijj tf
n1tf (27)
En este punto se calcularaacute la densidad del espacio de documentos como la suma de
las similitudes de cada documento con respecto al centroide con la siguiente foacutermula
menos costosa que la (26)
sum=
=n
1ii )dd(simcsim (28)
Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los
documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en
este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una
distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos
los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de
documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se
asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio
de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos
documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre
documentos
Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como
simsimdv jj minus= (29)
Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten
ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que
16
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la
lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar
en tres categoriacuteas seguacuten su valor de discriminacioacuten
Buenos discriminadores con un valor dvj positivo que al ser considerados en la
indexacioacuten decrementan la densidad del espacio
Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o
adicioacuten no variacutea la similitud entre documentos
Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los
documentos
Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo
para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de
discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos
con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su
consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede
afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de
teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con
poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en
la indexacioacuten coincidiendo con los de frecuencia intermedia
Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la
frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de
discriminacioacuten
wij = tfij dvj (210)
222 El Modelo Probabiliacutestico
Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de
una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo
sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la
distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de
17
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la
relevancia para automatizar el ajuste del valor de sus paraacutemetros
La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los
teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial
La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en
la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los
documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de
los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada
de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la
coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero
de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que
incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado
de sumar las filas y columnas correspondientes
doc relevantes doc no relevantes
t isin doc r n - r n
t notin doc R - r N ndash n ndash R + r N - n
R N - R N
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]
Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck
Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino
basaacutendose en los resultados de una consulta previa
)(
)(log)(1
NnRr
tw = (211)
)(
)(log)(2
RNrn
Rr
tw
minusminus
= (212)
18
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
)(
)(log)(3
nNn
rRr
tw
minus
minus= (213)
)(
)(log)(4
rRnNrnrR
r
tw
+minusminusminusminus= (214)
Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores
destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de
experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)
proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)
23 La Web como sistema de recuperacioacuten de informacioacuten
Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para
intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto
y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la
informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era
evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el
acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han
convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad
de establecer viacutenculos entre los documentos
La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema
suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de
tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente
impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces
permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores
permitiendo asimismo almacenar referencias entre documentosrdquo
Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir
ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular
No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se
1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]
19
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior
crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres
antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se
hiciera apremiante
Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se
precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado
Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten
como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes
para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la
Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos
231 Meacutetodos de recuperacioacuten de informacioacuten en la Web
Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI
tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos
almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de
recuperacioacuten de informacioacuten en la Web
La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la
configuran como un entorno singular y diferente de los claacutesicos Algunas de estas
caracteriacutesticas son las siguientesrdquo [Delgado 2001]
Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes
de 8000 millones de paacuteginas web indizadas por el buscador Google
Heterogeneidad de las publicaciones en cuanto a
o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas
personales y comerciales
o Tipos de datos las paacuteginas web pueden contener texto simple y elementos
multimedia Ademaacutes admiten muchos formatos
o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y
aunque existen unas especificaciones de dicho lenguaje publicadas por el
2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I
20
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que
los navegadores son muy permisivos respecto a la sintaxis de los
documentos Esto dificulta su lectura e indizacioacuten mediante un programa
informaacutetico
o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el
autor o su fecha de publicacioacuten datos muy importantes en las referencias
bibliograacuteficas
o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e
instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad
cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores
tipograacuteficos
o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la
estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de
los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de
texto que cabe en la pantalla sin realizar desplazamientos con documentos
completos con el desarrollo de una idea Un documento puede contener
una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener
resuacutemenes o extractos de varios documentos
Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo
para cualquiera de los millones de internautas
Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como
resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo
de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian
totalmente de contenido manteniendo la misma URL
Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas
como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que
por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor
3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red
21
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles
mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra
ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la
diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su
organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario
determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo
[Delgado 2001]
2311 Herramientas de buacutesqueda en la Web
Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web
ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los
documentos existentes en la globalidad de la Web y permiten localizar informacioacuten
mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que
clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus
secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten
de su estructura hipertextualrdquo [Baeza 1999]
Motores de Buacutesqueda o Buscadores
Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y
localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea
a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea
diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un
rastreo recursivo de los documentos que se referencian [Delgado 2001]
Se puede observar el tamantildeo de la base de datos de los principales buscadores y su
evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6
5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom
22
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003
GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos
desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea
Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten
mediante un formulario Este puede consistir desde una simple caja donde teclear las
palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un
mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la
posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a
veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML
por tipo de fuente por aacuterea geograacutefica o dominio y por idioma
Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten
criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de
la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas
Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus
procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos
recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad
por lo que podemos encontrarnos con muchos resultados poco uacutetiles
Directorios
Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una
estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden
23
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey
Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary
of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en
algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten
estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten
para los usuarios asiduos de bibliotecas familiarizados con tales esquemas
En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad
formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio
Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada
Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la
estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario
puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten
adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta
Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que
elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar
globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la
estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea
en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos
existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y
clasificacioacuten de los documentos
Multibuscadores
Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta
dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces
recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler
[Selberg 1995] y SavvySearch [Howe 1997]
Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la
posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de
forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias
individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los
que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los
resultados de forma concatenada es decir para cada motor interrogado se presenta una lista
24
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
de los resultados obtenidos y otros que permiten obtener los resultados de forma
integrada eliminando los duplicados e indicando para cada resultado queacute buscador o
buscadores lo han proporcionadordquo
Buacutesquedas aprovechando la estructura hipertextual de la Web
Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo
utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo
mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software
La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de
enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo
podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una
imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para
posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes
importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y
los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para
representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL
[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]
La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de
texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La
principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en
el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute
utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada
para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de
que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la
buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con
ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las
paacuteginas ldquovecinasrdquo
Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica
en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes
heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en
cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados
recuperados [Baeza 1999]
25
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
232 Navegando por la informacioacuten de la Web
Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto
sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la
Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web
Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es
utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros
programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las
principales caracteriacutesticas de estos programas
Navegadores
Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario
recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a
traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea
Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de
viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o
enlaces
La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de
documentos de texto posiblemente con recursos multimedia incrustados Tales
documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que
enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado
con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en
cualquier ordenador conectado a Internet se llama navegacioacuten
El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de
1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en
determinados equipos de trabajo
El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para
distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape
Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad
7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas
26
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los
navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos
antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada
vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape
Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el
proyecto Mozilla
A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla
que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador
maacutes ligero que su hermano mayor
Agregadores de contenidos
Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas
paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo
RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta
manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas
fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para
obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta
Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]
[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una
parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes
para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas
fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar
alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten
aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el
usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de
presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la
figura 28
9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I
27
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom
Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que
proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de
informacioacuten con muacuteltiples opciones de personalizacioacuten
Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles
en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de
2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear
subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan
parcialmente el problema automatizando las consultas y aglutinando todos los contenidos
recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De
esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten
interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o
cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello
en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten
de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema
puntuacutee como interesante en base a sus intereses particulares
11 httpmyfeedstercomloginphp
28
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador
inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus
intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia
de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido
caracteriacutesticas que poseen lenguajes del tipo RSS o Atom
233 Sistemas de recomendacioacuten
En Internet existe una gran cantidad de sitios especializados que ofertan millones de
productos y servicios para su consumo Eacuteste hecho puede resultar un importante
inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones
existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun
sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo
servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a
sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un
proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos
relevantes para cada usuario en concretordquo [Serradilla 2005]
Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno
interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden
albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran
cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer
et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en
tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de
recomendacioacuten y al resto de aspectos del disentildeo
Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en
agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la
vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una
arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]
Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que
recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de
los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los
usuarios se representan como vectores en los que cada componente contendraacute la
valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este
29
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre
amigos
En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un
weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta
empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo
atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera
un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de
encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog
En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar
sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten
persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el
filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web
especializado
Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a
sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada
usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede
suministrar la informacioacuten clasificada individualmente proporcionando un orden
personalizado de conceptos para navegar por la Web El sistema se construye utilizando las
caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN
[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma
jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27
[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep
para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del
usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de
aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica
Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este
sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se
clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del
comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de
informacioacuten recomendado por el sistema
12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad
30
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente
httpwwwittckueduobiwan
24 Resumen
En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de
informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten
Se han expuesto varias propuestas de clasificacioacuten de los modelos para la
recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial
y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la
proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los
documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la
similitud entre documentos y consultas destacando la medida de similitud del coseno
ampliamente utilizada
Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario
para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos
para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre
pares de documentos
31
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para construir los vectores asociados a los documentos se necesita un proceso de
indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos
teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf
Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en
un documento por frecuencias relativas como la frecuencia de documento inversa o el
valor de discriminacioacuten
El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los
pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los
valores de una tabla de contingencias
Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten
de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar
meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda
de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros
sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando
lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software
Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo
disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la
informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes
para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al
comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones
electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques
Por uacuteltimo se han comentado los agregadores de contenidos que recogen
informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas
paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de
marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades
de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos
deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario
La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de
recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten
para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el
sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos
utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una
especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos
32
Capiacutetulo 3
EVALUACIOacuteN DE LOS SISTEMAS RI
Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada
expresamente a establecer medidas para valorar su efectividad Existen evaluaciones
basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer
conjunto de medidas alternativas que evitan realizar juicios de relevancia
Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema
NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los
sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para
posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la
relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para
comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de
medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de
deslizamiento y la medida de Voiskunskii
31 Relevancia y Pertinencia
Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en
gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten
[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el
teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo
Podemos entender entonces que un documento recuperado se consideraraacute relevante
cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad
de informacioacuten del usuario
Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir
problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse
como relevante o no
El mismo documento puede ser considerado como relevante por una persona e
irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas
33
EVALUACIOacuteN DE LOS SISTEMAS RI
Incluso el mismo documento puede resultar relevante o no a la misma persona en
momentos diferentes [Lancaster 1993]
Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un
documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que
explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel
concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser
explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]
Es posible que los documentos resulten relevantes en alguno de sus apartados con
una materia determinada pero no en el resto de sus contenidos Esta relevancia
parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute
adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua
en lugar de una funcioacuten binaria
Estos problemas condicionan la viabilidad de la relevancia como criterio en la
evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la
ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un
usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener
problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para
decidir si un documento le resulta uacutetil o no
Lancaster considera que la relevancia de un documento estaraacute relacionada con la
satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos
contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra
ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de
relacionar los contenidos de un documento con un tema determinado y pertinencia se
relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de
informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de
documentos recuperados se puede definir como el subconjunto de documentos apropiado
para la necesidad de informacioacuten del usuariordquo [Salton 1983]
Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo
como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces
decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno
proporcionaacutendole informacioacuten para alguacuten propoacutesito
Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta
34
EVALUACIOacuteN DE LOS SISTEMAS RI
manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto
de vista del usuario que realiza la operacioacuten de recuperar informacioacuten
32 Meacutetodos tradicionales de evaluacioacuten de SRI
La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos
puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el
acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o
no del contenido
Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo
de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et
al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten
la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la
exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son
faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que
mediraacuten verdaderamente la efectividad del sistema
Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas
divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el
tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y
la presentacioacuten [Chowdhury 1999]
Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre
el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas
en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del
resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes
Medidas basadas en la Relevancia
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos relevantes
Promedio de la
efectividad E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente
[Meadow1993]
35
EVALUACIOacuteN DE LOS SISTEMAS RI
Medidas basadas en el Proceso
Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el
grado de solapamiento con otras relacionadas
Contenido Tipo de documentos de la base de datos temaacutetica de los
documentos frecuencia de actualizacioacuten
Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o
precisa intermediacioacuten
Errores en el establecimiento de la
consulta
Media de errores sintaacutecticos en la escritura de la
buacutesqueda que propician la recuperacioacuten de conjuntos
vaciacuteos y erroacuteneos
Tiempo medio de realizacioacuten de la
buacutesqueda
Tiempo medio de realizacioacuten de una estrategia de
buacutesqueda
Dificultad en la realizacioacuten de la
buacutesqueda
Problemas que los usuarios inexpertos se pueden
encontrar
Nuacutemero de comandos precisos para una
buacutesqueda
Promedio de instrucciones necesarias para realizar una
buacutesqueda
Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten
Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda
Nordm de documentos revisados por el
usuario
Promedio de documentos que los usuarios estaacuten
dispuestos a revisar
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]
Medidas de resultado
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos relevantes
Promedio de la efectividad
E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Medidas promedio de la
satisfaccioacuten del usuario
Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante
el resultado de una buacutesqueda
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]
El conjunto de medidas basadas en la relevancia es el que se considera maacutes
importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de
otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar
36
EVALUACIOacuteN DE LOS SISTEMAS RI
aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las
basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia
introduciendo algunos aspectos diferenciadores
321 Medidas basadas en la relevancia
Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un
conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de
documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro
subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente
este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto
conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan
estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados
en el conjunto formado por la totalidad de documentos
documentos relevantes A
documentos no relevantes notA
documentos recuperados relevantes
A cap B
documentos recuperados no relevantes
notA cap B
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El
color maacutes oscuro indica el subconjunto B de documentos recuperados
Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de
buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en
donde A representa el conjunto de documentos relevantes B representa el conjunto de
37
EVALUACIOacuteN DE LOS SISTEMAS RI
documentos recuperados notA representa el conjunto de documentos no relevantes y notB
representa el conjunto de documentos no recuperados
RELEVANTES NO RELEVANTES
RECUPERADOS A cap B notA cap B B
NO RECUPERADOS A cap notB notA cap notB notB
A notA
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]
Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros
autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute
como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de
fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35
Precisioacuten |B|
|BA| cap
Exhaustividad |A|
|BA| cap
Tasa de Fallo |A|
|BA|notcapnot
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]
La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes
con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes
recuperados entre el total de documentos recuperados
La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes
recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy
difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero
no se podraacute afirmar esa cantidad con total seguridad
La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes
respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes
38
EVALUACIOacuteN DE LOS SISTEMAS RI
importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos
Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la
generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes
sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel
grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto
grado de generalidad tendraacute una mayoriacutea de documentos relevantes
Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola
precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece
en la siguiente expresioacuten
)G1(F)GE()GE(Pminus+sdot
sdot= (31)
en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo
Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad
asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse
en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje
Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de
[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente
relacionados
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]
39
EVALUACIOacuteN DE LOS SISTEMAS RI
Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean
medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los
usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a
un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la
necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la
cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute
considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si
que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se
buscaraacute una gran exhaustividad
322 Medidas orientadas al usuario
Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la
evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el
conjunto de documentos relevantes para una respuesta es siempre el mismo
independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la
realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son
relevantes y cuales no
Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de
que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la
relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y
[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los
antildeos setenta [Korfhage 1997] Se distinguen tres comunes
Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el
usuario ha recuperado
Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran
previamente desconocidos para el usuario
Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados
examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute
dispuesto a examinar
40
EVALUACIOacuteN DE LOS SISTEMAS RI
Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de
documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad
indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea
Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio
entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de
documentos examinados al intentar encontrar esos documentos relevantes Para ello se
parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y
el sistema permite al usuario localizar todosrdquo [Korfhage 1997]
323 Caacutelculo de la Exhaustividad y la Precisioacuten
Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se
presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute
una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que
enumeraremos a continuacioacuten
Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base
de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los
documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea
escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de
recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo
Otro procedimiento para calcular la exhaustividad consiste en asignar a varias
personas la tarea de analizar los documentos recuperados Este procedimiento resulta
complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el
usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios
de valor y lo que sea interesante para una puede no serlo para la otra
Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la
coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se
estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas
El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague
[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy
bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra
deberiacutea ser muy grande lo que complica el anaacutelisis
41
EVALUACIOacuteN DE LOS SISTEMAS RI
Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra
de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista
que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse
sin problemas a una base de datos global y por ello sugiere que puede hacerse
Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de
una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige
una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que
resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los
valores calculados para la exhaustividad y la precisioacuten son los siguientes
Relevante E P
d1 X 025 1
d2 X 05 1
d3 05 066
d4 X 075 075
d5 075 06
d6 075 05
d7 X 1 057
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos
Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben
realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un
uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un
documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el
total de documentos relevantes)
Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes
recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son
dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el
nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos
relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir
un graacutefico como el que se muestra en la figura 33
42
EVALUACIOacuteN DE LOS SISTEMAS RI
Pares de valores exhaustividad-precisioacuten
0
01
02
03
04
05
06
07
08
09
1
d1 d2 d3 d4 d5 d6 d7
Val
or
Exhaustividad Precisioacuten
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la
precisioacuten seguacuten Salton tomados de la tabla 36
Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja
claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la
coleccioacutenrdquo [Salton 1983]
Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de
una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten
corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial
de 1 hasta el de 066
324 Medidas promedio exhaustividad-precisioacuten
Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de
medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la
realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media
aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales
43
EVALUACIOacuteN DE LOS SISTEMAS RI
de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P
seraacute
sum= +
=N
1i ii
i
)NoRecRel(DRecRel(D)RecRel(D)
N1)D(dadExhaustivi (32)
sum= +
=N
1i ii
i
)RecNoRel(DRecRel(D)RecRel(D)
N1(D) Precisioacuten (33)
en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)
seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos
recuperados no relevantes siendo D el conjunto de documentos
A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores
diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez
de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la
figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de
valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten
como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como
aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la
relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica
buacutesqueda
Korfhage propone dos meacutetodos distintos para calcular el promedio de la
exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los
documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada
pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo
recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la
precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir
una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]
El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto
de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se
conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo
44
EVALUACIOacuteN DE LOS SISTEMAS RI
Graacutefico E-P
0
01
02
03
04
05
06
07
08
09
1
11
0 01 02 03 04 05 06 07 08 09 1 11 12
Exhaustividad
Prec
isioacute
n
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto
con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo
325 Valores sumarios simples
Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la
recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten
media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos
en estudio y segundo porque cuando comparamos dos algoritmos podemos estar
interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto
dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que
podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad
Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de
exhaustividad
3251 Precisioacuten media al observar documentos relevantes
Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden
de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada
aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir
observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media
45
EVALUACIOacuteN DE LOS SISTEMAS RI
seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que
recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto
valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor
pobre de exhaustividad global
3252 La R-Precisioacuten
La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos
ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo
R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si
consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden
entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10
documentos recuperados Esta medida puede utilizarse para observar el comportamiento
de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede
calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple
para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de
diversas consultas puede resultar impreciso
3253 Histogramas de Precisioacuten
Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la
historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el
valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i
respectivamente podemos definir la diferencia entre ambos valores como
RPAB(i) = RPA(i) - RPB(i) (34)
Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual
rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces
indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el
algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden
representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar
raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple
inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35
46
EVALUACIOacuteN DE LOS SISTEMAS RI
-15
-1
-05
0
05
1
15
1 2 3 4 5 6 7 8 9 10
Consultas
R-P
reci
sioacuten
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza
restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]
33 Otras medidas alternativas
Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la
seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas
ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en
funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las
medidas alternativas deberiacutean cumplir las siguientes condiciones
Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de
forma separada de otros criterios como el coste
Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos
recuperados no debe afectar a estas medidas
Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores
47
EVALUACIOacuteN DE LOS SISTEMAS RI
331 Exhaustividad y precisioacuten normalizadas
Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la
lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los
resultados al usuario formando una secuencia de documentos Incluso en sistemas que no
presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente
Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los
documentos siguientesrdquo [Korfhage 1997]
Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros
documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este
usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no
relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos
no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se
le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician
el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los
documentos al usuario
En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]
[Korfhage 1997]
Primero considera un sistema ideal donde los documentos relevantes se recuperan
antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la
exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe
que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido
devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se
muestra en la figura 36 siguiente
Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de
02 un documento relevante divido entre el total de cinco documentos relevantes de la
coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la
exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa
la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en
las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al
presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la
secuencia
48
EVALUACIOacuteN DE LOS SISTEMAS RI
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor
buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]
Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal
representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la
exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de
dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es
el nuacutemero total de documentos
Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el
resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda
ideal y la peor buacutesquedardquo [Rijsbergen 1979]
332 Ratio de deslizamiento
Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos
recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal
donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se
permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la
pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma
de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos
de los documentos que hubiera devuelto el sistema ideal
En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento
por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada
fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor
de uno
49
EVALUACIOacuteN DE LOS SISTEMAS RI
A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos
que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25
82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la
columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos
documentos habriacutean sido recuperados y presentados en el orden descendente de pesos
formando la columna ldquoΣ pesos idealesrdquo de dicha tabla
La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada
ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por
ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82
Ratio de Deslizamiento
N sum pesos reales sum pesos ideales Deslizamiento
1 70 82 085
2 120 152 079
3 120 204 059
4 145 254 057
5 227 299 076
6 272 336 081
7 309 367 084
8 320 392 082
9 372 403 092
10 403 403 1
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de
pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]
333 Medida de Voiskunskii
Este autor considera que los criterios para comparar los resultados de una buacutesqueda
ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda
y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el
establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]
Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko
I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos
medidas no cumplen totalmente los criterios comentados fundamentalmente porque se
50
EVALUACIOacuteN DE LOS SISTEMAS RI
infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra
cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a
conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants
Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de
los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con
los resultados siguientes
a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son
b Se recuperan 67 documentos siendo pertinentes 40 de ellos
c Se recupera un solo documento que resulta ser pertinente
Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores
para la medida I1
Buacutesqueda E P I1
a 05 05 1
b 04 0597 0997
c 001 1 101
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]
Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener
el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute
considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se
le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute
cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos
independientemente del valor matemaacutetico que nos devuelva la foacutermula
Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para
resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de
documentos relevantes recuperados y el nuacutemero de documentos que conforman el
resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del
producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta
medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39
51
EVALUACIOacuteN DE LOS SISTEMAS RI
En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto
para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la
mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior
En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir
en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo
Buacutesqueda E P I2
a 05 05 025
b 04 0597 02388
c 001 1 001
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]
34 Resumen
En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los
sistemas de Recuperacioacuten de Informacioacuten
Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante
un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten
con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos
resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito
Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten
Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas
RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la
precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de
documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la
precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el
tema
En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar
respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se
proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad
relativa
52
EVALUACIOacuteN DE LOS SISTEMAS RI
Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque
seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la
exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos
para calcular la exhaustividad como los manuales resultan complejos y costosos En otros
casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar
solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten
Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen
los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en
cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de
precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos
considerados
Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas
de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el
cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que
conforman el resultado
53
EVALUACIOacuteN DE LOS SISTEMAS RI
54
Capiacutetulo 4
PERFILES DE USUARIO
En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de
los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten
estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a
los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus
necesidades reales de informacioacuten
La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten
NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por
ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de
creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias
maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de
realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a
sus intereses y circunstancias
41 iquestQueacute es un Perfil
Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear
los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que
describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un
ordenador y puede utilizarse como representante del objeto en las tareas computacionales
Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten
la gestioacuten de conocimiento y el anaacutelisis de datos
Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del
comportamiento de un individuo hasta el perfil del funcionamiento de un programa de
ordenador En principio se puede hacer un perfil de todo y por consiguiente las
caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado
Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de
los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas
55
PERFILES DE USUARIO
especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos
antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes
El perfil de usuario va a contener informacioacuten modelada sobre el usuario
representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema
incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute
necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto
refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de
creacioacuten y gestioacuten de los perfiles de usuario
42 Meacutetodos de creacioacuten de perfiles
Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o
manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo
impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente
En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario
escribieacutendolos en su perfil de usuario o respondiendo a formularios
Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a
partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo
a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra
un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de
informacioacuten
Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se
modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de
Inteligencia Artificial para dichas tareas
Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente
para producir perfiles maacutes precisos y comprensibles
56
PERFILES DE USUARIO
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo
colaborativo de creacioacuten de perfiles Fuente [Rui 2003]
43 Meacutetodos de adquisicioacuten de los datos del usuario
En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de
datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten
activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de
adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos
para la clasificacioacuten del usuario
431 Informacioacuten Expliacutecita
La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el
propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener
mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas
iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo
1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el
usuario a un subgrupo de usuarios predefinido
57
PERFILES DE USUARIO
Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para
autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos
sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios
para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de
cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes
orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de
entretenimiento y pueden ofrecer incentivos para que el usuario las responda
Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta
los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea
inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta
paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo
inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que
responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa
de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo
[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]
432 Reglas de Adquisicioacuten
Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se
ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario
En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones
observadas del usuario o a una interpretacioacuten de su comportamiento
Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o
independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo
encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X
entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde
se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo
Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil
implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de
describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y
otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde
se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en
tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la
aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas
58
PERFILES DE USUARIO
variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que
seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten
especiacuteficas
433 Reconocimiento del Plan
Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan
realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una
base de conocimiento de tareas para modelar las posibles acciones del usuario y las
relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos
asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre
todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las
teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos
como en [Lesh 1995]
El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que
tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se
muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en
una aplicacioacuten de gestor de mensajes
434 Estereotipos
En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre
ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario
pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos
semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de
circunstancias [Rich 1979]
En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la
informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra
un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario
Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de
activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las
presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el
usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo
[Ambrosini et al 1997]
59
PERFILES DE USUARIO
Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al
1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro
importante que determina la efectividad de este meacutetodo va a ser la calidad de los
estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto
atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado
para cada estereotipo
435 Adquisicioacuten de Datos de Utilizacioacuten
En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo
para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que
registran las acciones del usuario para obtener informacioacuten de su comportamiento son
Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa
comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la
aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de
su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia
de navegacioacuten
Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales
[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes
aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que
los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las
acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el
comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y
para realizar automaacuteticamente acciones por el usuario
Tambieacuten se han construido perfiles de usuario orientados a su comportamiento
mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de
[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten
para modelar al usuario en sistemas educacionales
44 Representacioacuten del Perfil de Usuario
Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese
modelo el perfil de usuario para que pueda ser utilizado por otros componentes del
sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como
60
PERFILES DE USUARIO
pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los
contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten
los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales
Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y
las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de
razonamiento deductivo inductivo y analoacutegico
441 Razonamiento Deductivo
La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a
lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados
en la loacutegica y el razonamiento con incertidumbre
4411 Representacioacuten e Inferencia Loacutegica
El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra
bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo
lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas
sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del
tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del
concepto en la base de conocimiento del sistema
Para representar el conocimiento del sistema sobre el dominio y el conocimiento
del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de
conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de
proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la
incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a
meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten
de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]
4412 Representacioacuten y Razonamiento con Incertidumbre
Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden
utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo
es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas
61
PERFILES DE USUARIO
Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar
conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de
conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los
usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza
recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente
de ventas [Popp y Lodel 1996]
442 Razonamiento Inductivo Aprendizaje
En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se
monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales
basadas en las observaciones
En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier
tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten
afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica
especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten
personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar
filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario
partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de
mayor o menor intereacutes para el usuario basaacutendose en su perfil
Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En
Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico
para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de
documentos
En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario
se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las
palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas
adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic
1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones
claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los
perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que
represente a un documento cada peso podraacute expresar la importancia de la palabra en tal
documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la
importancia de la palabra para el usuario
62
PERFILES DE USUARIO
443 Razonamiento por Analogiacutea
El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios
En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de
usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo
de perfiles de usuario
4431 Filtrado Basado en Grupos
En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos
problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido
puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar
en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las
caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen
sistemas que buscan los usuarios que muestran un comportamiento interactivo similar
Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en
intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el
conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en
grupos [Alspector et al 1997]
Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula
las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las
clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se
utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker
y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus
marcadores de paacuteginas o ldquobookmarksrdquo
El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar
y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En
[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este
tipo
1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica
63
PERFILES DE USUARIO
4432 Agrupacioacuten de Perfiles de Usuario
Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute
considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de
usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios
El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos
utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un
algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes
formando perfiles de grupos de usuarios
[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de
aprendizaje para determinar el contenido de los estereotipos y para construir comunidades
de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45
[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se
corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo
una categoriacutea de noticias
El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende
expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los
documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del
usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su
perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho
perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las
caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema
realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que
considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el
usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no
visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores
45 Realimentacioacuten del usuario
Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una
secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario
comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten
La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La
realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema
64
PERFILES DE USUARIO
monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En
el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita
seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina
que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es
que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace
creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo
invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir
o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo
Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos
histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el
usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por
ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario
para ir confeccionando automaacuteticamente su perfil
Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al
usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con
respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten
que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra
parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable
puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no
es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en
dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en
ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede
suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener
modelos distintos uno del otro [Rui 2003]
Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la
realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten
positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa
puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute
auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa
Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de
utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se
requiera esfuerzo alguno por parte de eacuteste
65
PERFILES DE USUARIO
46 Agentes Software y creacioacuten de perfiles
Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en
entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese
entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo
Los agentes se han utilizado ampliamente en distintos campos comerciales
industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de
forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y
presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la
colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos
agentes se basaraacuten en alguacuten modo de conocimiento del usuario
Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software
convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su
ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten
capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no
impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un
sistema
La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute
principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes
que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes
podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de
inteligencia artificial
Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]
Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de
alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan
siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para
la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso
asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica
en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona
las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario
que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del
usuario y actualizar entonces su perfil
66
PERFILES DE USUARIO
47 Modelos Estadiacutesticos
Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis
estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute
paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten
para elaborar su perfil correspondiente
Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil
para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de
eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil
de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en
paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el
comportamiento en accesos del usuario y un grafo de accesos a la Web donde se
mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que
serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de
usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de
buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario
obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el
contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un
conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas
para evaluar el intereacutes de una paacutegina para un usuario
Las presunciones empiacutericas consideradas en [Chan 1999] son
1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor
intereacutes
2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes
3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso
indicaraacute que las paacuteginas son de intereacutes
4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa
paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa
paacutegina
En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio
de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de
enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina
puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones
67
PERFILES DE USUARIO
se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo
superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten
Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado
CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para
construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de
usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que
eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un
servidor web denominado JobFinder donde se graban los registros de actividad de los
usuarios
48 Razonamiento Basado en Reglas
Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas
pasados efectuando asociaciones a lo largo de relaciones generales para encontrar
soluciones al problema presente
Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose
en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio
existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario
se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos
partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y
la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema
dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino
basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de
usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos
enlaces que de otra manera estariacutean presentes en la paacutegina
El principal problema de estos sistemas seraacute la dificultad para describir y definir las
reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil
de usuario automaacutetico
Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas
que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo
68
PERFILES DE USUARIO
sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten
por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente
sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su
objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces
ordenados de mayor a menor puntuacioacuten seguacuten su perfil
Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo
utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por
el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir
elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web
recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su
frecuencia
Se distinguen dos aspectos de las preferencias del usuario las preferencias
persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de
usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones
En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario
se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar
procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se
representaraacute mediante un vector que se construye considerando ambos tipos de
preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para
calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea
anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la
foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1
Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos
teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o
de la frecuencia del teacutermino
La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia
del coseno entre ambos
wPwPw)sim(P rrr
sdotsdot
=r
(41)
De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo
con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de
similitud
69
PERFILES DE USUARIO
410 Resumen
En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos
para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten
de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se
incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros
casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones
adquiriendo sus datos de utilizacioacuten
Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una
representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del
sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e
inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos
numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o
aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el
aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios
En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los
documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen
dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el
meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario
Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos
permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza
el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten
expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e
implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en
proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten
Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes
software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda
y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma
automaacutetica recurriendo a teacutecnicas de inteligencia artificial
Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos
anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque
analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar
soluciones al problema presente sistemas de razonamiento basado en reglas
70
PERFILES DE USUARIO
Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite
realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico
elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo
vectorial y valores de similitud basados en la medida del coseno para clasificar los
resultados de una buacutesqueda
71
PERFILES DE USUARIO
72
Capiacutetulo 5
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE
CONTENIDOS BASADO EN PERFILES
En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su
evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y
diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario
En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone
un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un
perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al
usuario seguacuten su puntuacioacuten
El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten
en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario
utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del
perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute
coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]
Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto
aplicaacutendolo a la elaboracioacuten de un agregador inteligente
51 Introduccioacuten
El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un
mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten
la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado
automaacuteticamente
Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir
su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten
que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute
compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de
dicho contenido
73
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten
seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten
disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de
las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del
sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden
darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva
informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada
uacutenicamente por el inicio y fin de la ejecucioacuten del sistema
En la figura 51 se muestra una visioacuten general de este sistema propuesto donde
puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y
que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma
de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario
Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de
retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil
Usuario
Visualizar y seleccionar noticias
World Wide Web
Perfil de Usuario
Agregador de noticias
Puntuar la informacioacuten recuperada
Actualizar perfil
Proporcionar noticias relevantes
Seleccioacuten de noticias
Figura 51 Vista general del sistema NectaRSS propuesto
52 Construccioacuten automaacutetica de un perfil de usuario basado en su
historia de navegacioacuten
En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras
palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o
evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su
historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo
74
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas
sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se
recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa
informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten
Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar
diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo
de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen
por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el
perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las
preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario
construido con la historia de navegacioacuten por titulares durante S sesiones
Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis
Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el
usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En
primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como
sigue
(51) )ww(ww ht
ht
ht
hm21
=
donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino
Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define
como sigue
ht k
w
sum =
= m
1s sh
khht
tftf
wk
(52)
donde tfhk es la frecuencia del teacutermino tk en cada titular h
Entonces definimos a Ps como
(53) )psps(psPs21 ttts =
75
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la
sesioacuten j y tk denota cada teacutermino
Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps
sum=
=j
kk
S
1h
ht
jt w
S1ps (54)
Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente
seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la
ecuacioacuten (54) ktps
El perfil de usuario P se denotaraacute tambieacuten mediante un vector
(55) )pp(pPn21 ttt=
donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino
Cada elemento se define kt
p
sum sum= =
=T
1j
S
1h
ht
jt
j
kkw
S1p (56)
siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento
Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al
teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j
Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguientes expresiones
76
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Pj+1 = a Pj + b Psj para forall sub Psj (57) kt
p
Pj+1= Pj para forall nsub Psj (58) kt
p
donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual
se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a
Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como
se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras
cada sesioacuten
hllog2
tt ep)fol(pkk
minussdot= (59)
donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]
En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea
determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula
(510) siguiente
ktp
ktp
Pj+1 = fol( Pj) para forall nsub Psj (510) kt
p
521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten
del perfil de usuario
Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute
presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la
posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica
del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten
asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al
funcionamiento del sistema propuesto
Utilizando el modelo vectorial en este caso para los titulares que posean un
resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los
77
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a
partir de los teacuterminos que aparezcan en el resumen asociado
Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen
asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr
con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar
denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)
como sigue
(511) )ww(ww hrt
hrt
hrt
hrv21
=
donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk
denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento
de whr se define como sigue hrtk
w
sum =
= v
1s shr
khrhrt
tftf
wk
(512)
donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h
Entonces definimos a Pr como
(513) )prpr(prPv21 tttr =
y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr
sum=
=j
kk
Sr
1h
hrt
jt w
Sr1pr (514)
78
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj
seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se
muestra en la ecuacioacuten (514) kt
pr
Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias
en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior
Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguiente foacutermula
Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt
p
donde a y b son constantes que satisfacen a + b = 1
53 Caacutelculo de la puntuacioacuten de los titulares
Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente
vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el
titular h y tk denota cada teacutermino con el perfil de usuario donde n es el
nuacutemero de teacuterminos distintos y tk denota cada teacutermino
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular
h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la
seccioacuten 221 de esta tesis y propuesta por [Salton 1989]
hw
h
hh
wPwP)wsim(Psdotsdot
= =sum sumsum= =
=
sdot
sdotm
1k2m
1kht
2t
m
1khtt
kk
kk
(w(p
wp
)) (516)
El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para
cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya
puntuacioacuten sea mayor
79
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular
con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez
se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de
olvido
Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes
apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo
Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo
t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo
Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute
wh= ( = 033 = 033 = 033) 1t
ps 2tps3t
ps
Ahora suponemos que se tienen los siguientes valores en el perfil de usuario
correspondientes a los teacuterminos del titular h
P= ( = 003 = 001 = 009) 1t
p2t
p3tp
La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la
medida del coseno (516) se calcularaacute de la siguiente manera
)wsim(P h =)()(
)()()(222222 090010030330330330
090330010330030330++sdot++
sdot+sdot+sdot = 079
Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil
de usuario P en este ejemplo es de 079
80
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
531 Puntuacioacuten alternativa de los titulares
Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la
medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por
[Salton 1989]
Asiacute dado el correspondiente vector caracteriacutestica del titular h
donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario
donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino
entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del
titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
hw
=)wsim(P h
sum sumsumsum
= ==
=
sdotminussdot
sdotm
1k
m
1khtt
2m
1kht
2t
m
1khtt
kkkk
kk
wp)(w)(p
wp (517)
El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar
para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten
54 Descripcioacuten general del sistema NectaRSS
Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52
y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone
un sistema de recomendacioacuten de noticias recuperadas de la Web
Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador
inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2
De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores
tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo
implementa puede encontrarse en el Anexo II
1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I
81
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de
usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia
Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten
El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella
informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin
esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando
entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute
confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada
sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten
(55) mediante la foacutermula (57)
Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula
(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten
El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la
seccioacuten 53 utilizando la foacutermula (516)
Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que
aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula
(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps
como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten
(513)
541 Caracteriacutesticas singulares del sistema
NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental
del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten
dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin
embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va
elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la
informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin
distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de
usuario resulta maacutes sencillo
Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la
informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia
reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)
82
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten
2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al
comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las
similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para
conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias
a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente
Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias
utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda
informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada
seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente
ninguna aplicacioacuten similar con estas funciones
55 Resumen
En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten
de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a
los usuarios en la tarea de encontrar la informacioacuten que demandan
NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de
usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal
usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el
sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada
Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea
un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar
cada sesioacuten con el sistema
Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para
ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten
Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada
titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino
Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su
correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del
coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton
1989]
83
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
84
Capiacutetulo 6
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA
PROPUESTO
En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar
experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza
exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea
seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha
experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para
determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el
sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las
palabras y se describen los experimentos efectuados
En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del
sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la
Correlacioacuten entre titulares y la R-Precisioacuten
61 Objetivo general del sistema y esquema de su experimentacioacuten
El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el
filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base
a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones
satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y
faacutecilmente la informacioacuten que demande
Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas
1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus
elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de
informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5
2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64
de este capiacutetulo incluyendo
85
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de
puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas
informativas del sistema
minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para
cada sesioacuten con el sistema
3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el
funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos
en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten
632 Los resultados de estos experimentos y los paraacutemetros seleccionados se
expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente
4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a
las distintas medidas calculadas y prueba de un sistema alternativo de
puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los
experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos
resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente
62 Metodologiacutea seguida
Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se
procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio
formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de
noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo
II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes
La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin
embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes
En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en
una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar
usuarios para su prueba
86
RESULTADOS DE LOS EXPERIMENTOS
Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y
se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en
formato XML1 para su posterior anaacutelisis
El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de
treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica
Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa
fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido
como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello
que todos los valores que se ofrecen como resultado de los experimentos han sido
suficientemente contrastados por este meacutetodo
Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la
base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten
asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo
selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61
ltSESIOacuteNgt
ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt
ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt
ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt
ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt
ltTitular_sesioacutengt
ltTiacutetulogtMadrid 2012ltTiacutetulogt
ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt
ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt
ltFechagt2005-05-17T091249+0100ltFechagt
ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt
ltOrden_eleccioacutengt2ltOrden_eleccioacutengt
ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt
ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt
ltErrorgt06355515025975752ltErrorgt
ltTitular_sesioacutengt
ltSESIOacuteNgt
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La
ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden
en que el usuario lo ha elegido
1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas
87
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Antes de las sesiones de prueba en cada uno de los casos considerados en los
distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin
de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan
los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener
conclusiones
63 Estrategias de experimentacioacuten
Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la
primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para
comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los
resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil
de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones
Estas fases se describen maacutes detalladamente a continuacioacuten
Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute
se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos
titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el
intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas
proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)
Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada
experimento se compararaacuten los resultados para comprobar si existen variaciones
significativas y cuaacutel valor de entre los experimentados arroja mejores resultados
En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en
las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el
sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus
correspondientes preferencias temaacuteticas como cualquier otro usuario real Una
descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en
la seccioacuten 632
Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros
determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos
usuarios reales contrastando los resultados para determinar su validez En esta fase
se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste
iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que
permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar
88
RESULTADOS DE LOS EXPERIMENTOS
desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el
sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten
se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes
detallada de los usuarios experimentales y de los experimentos correspondientes a
esta fase se encuentra en la seccioacuten 632
631 Tratamiento de las palabras
Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se
analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la
descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una
a una todas las palabras
En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o
es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar
de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso
muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]
y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a
minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es
una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o
modificando sus valores de perfil si ya estaacute contenida
El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su
inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten
se podraacute forzar al sistema para que excluya las palabras que se deseen
Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del
analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten
comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado
por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por
52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la
herramienta ispell [DATSI 2005]
2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm
89
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
632 Descripcioacuten de los experimentos
A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema
Los cuatro primeros se corresponden con la primera fase destinada a probar diversos
paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento
del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el
uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas
distintas de puntuar la informacioacuten
Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada
sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el
Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea
diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea
Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la
seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el
primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto
de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de
los mismos titulares de noticias
Experimento 1 Con Resumen ndash Sin resumen (CRS)
En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la
consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de
usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee (ESIN)
Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)
Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se
probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados
obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores
experimentados resulta maacutes beneficioso para el sistema Para este experimento el
90
RESULTADOS DE LOS EXPERIMENTOS
sistema estaraacute configurado con la mejor de las dos estrategias descritas en el
experimento CRS anterior
Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y
33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal
y como puede observarse en la figura 62
Representacioacuten del factor de olvido para distintos valores del intervalo de vida
07
075
08
085
09
095
1
105
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Intervalo de vida hl
Valo
r
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo
de vida hl
Experimento 3 Importancia Relativa de los Perfiles (IRP)
En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al
finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el
perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con
distintas importancias relativas para dichos perfiles modificando sus paraacutemetros
multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del
experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones
consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema
Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)
(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y
(a=90 b=10) abarcando uniformemente el intervalo [0 100]
91
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)
Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento
del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar
el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS
pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con
ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento
Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)
Considerando los resultados obtenidos en los cuatro experimentos anteriores se
configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten
de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios
reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en
cada una de las sesiones Al final del experimento se compararaacuten los resultados que se
hayan obtenido para cada uno de ellos para determinar si el sistema posee un
funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema
para que presente al usuario una lista aleatoria de titulares de entre los recuperados en
cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-
experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute
ldquoAZARrdquo
En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14
titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar
simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento
vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la
lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de
entre los recuperados en la sesioacuten
Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales
debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por
el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes
92
RESULTADOS DE LOS EXPERIMENTOS
proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar
estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los
titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera
sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos
los titulares recuperados
Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones
baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada
experimento
USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5
Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en
el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto
como medida alternativa en la seccioacuten 531 del capiacutetulo anterior
En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las
empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la
informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos
casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados
por puntuacioacuten para que escoja los que sean de su intereacutes
93
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
64 Medidas para la evaluacioacuten experimental del sistema
En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del
sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las
preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por
el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento
determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su
funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores
recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la
informacioacuten que maacutes le interesa
641 Tasas formadas por relaciones entre las variables observables
Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario
almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute
en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de
intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas
medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el
sistema
Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en
una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en
dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor
que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares
con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la
figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos
conjuntos como variables dependientes del sistema
El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de
las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas
para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para
ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el
apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares
que se le ofrecen al usuario o card(T)
En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los
que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el
94
RESULTADOS DE LOS EXPERIMENTOS
perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares
destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario
seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))
titulares T
titulares elegidos E(T)
titulares elegidos
destacados E(T) cap D(T)
titulares destacados D(T)
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la
seccioacuten 641
En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por
tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra
variable a considerar siendo su valor el de card(E(T))
Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir
un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal
cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se
corresponderaacute con card(E(T) cap D(T))
Si relacionamos entre si estas variables podremos definir varias tasas de valor simple
que nos ayuden a evaluar el sistema
Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten
respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como
95
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
T)T(EC P = (61)
Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la
sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares
Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada
mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como
T)T(DCR = (62)
Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de
titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al
total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones
iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del
usuario
Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con
puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT
definida como
T
)T(D)T(ECTcap
= (63)
Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con
puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los
titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede
con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa
En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los
conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del
funcionamiento del sistema
96
RESULTADOS DE LOS EXPERIMENTOS
titulares elegidos titulares
destacados
titulares elegidos
destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila
642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima
Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una
puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas
(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares
se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones
eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el
sistema
En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares
ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible
calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares
escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo
que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los
N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten
determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos
por el usuario y el valor )T(p maacuteximo se define la tasa CD como
)T(p))T(E(pC
maxD = (66)
en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados
a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al
nuacutemero de titulares escogidos por el usuario
97
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error
Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en
[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el
conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de
noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten
asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de
titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto
error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi
siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las
dos medidas siguientes
Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del
sistema Se calcularaacute seguacuten la foacutermula
N
eE
N
iisum
== 1 (67)
Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento
del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el
algoritmo Se definiraacute como
( )N
EEN
isum=
minus= 1
2
σ (68)
644 La Correlacioacuten entre titulares
En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a
ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera
anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los
titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al
seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un
subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN
representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la
siguiente medida
98
RESULTADOS DE LOS EXPERIMENTOS
Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los
titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente
escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto
mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute
el algoritmo [Hill 1995] Se definiraacute
[ ]
fc
N
iii ffcc
Nr σσ sdot
minussdotminussum= =1
)()(1
(69)
en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la
expresioacuten representa la covarianza
645 La R-Precisioacuten
Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se
generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de
puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para
ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de
titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario
entre los ofrecidos por el sistema
Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis
primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para
el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el
comportamiento del algoritmo para cada sesioacuten i del experimento
El valor de la R-Precisioacuten podraacute definirse en este caso como
))T(E(card))T(E(posR)i(RP
i
i= (610)
en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros
titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al
nuacutemero total de titulares elegidos en dicha sesioacuten
99
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
65 Resumen
Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para
verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la
presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este
sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del
sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que
realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten
Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en
el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se
seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se
realizaron diversos experimentos analizando al final de cada uno de ellos los resultados
obtenidos para valorar el funcionamiento del sistema propuesto
En la experimentacioacuten se distinguen dos fases principales la primera destinada a
determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar
el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los
cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el
comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el
mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la
informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento
adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando
las palabras vaciacuteas y contabilizando las que se vayan considerando
Despueacutes de describir los experimentos se proponen diversas tasas y medidas para
cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de
titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras
relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su
similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error
Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es
la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el
comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6
mediante un valor simple
100
Capiacutetulo 7
RESULTADOS DE LOS EXPERIMENTOS
En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten
632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos
obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que
se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto
comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las
medidas que evaluacutean su funcionamiento
En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el
experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes
opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se
presentan los resultados del experimento DIV en el que se prueba el uso de un factor de
olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el
experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil
acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS
pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos
En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU
analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el
experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten
mediante la medida del coseno y mediante la medida de Jaccard
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)
Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del
sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para
la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras
se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y
los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN
101
RESULTADOS DE LOS EXPERIMENTOS
Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y
que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que
se basa en el valor de puntuacioacuten que el sistema asigna a los titulares
Para comparar los resultados de ambos sub-experimentos en la tabla 72 se
muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones
experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten
estaacutendar en los graacuteficos de las figuras 71 72 y 73
titulares elegidos titulares destacados
titulares elegidos destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
considerados La relacioacuten se establece dividiendo la columna por la fila
Experimento CRS ndash Valores medios de las tasas calculadas Caso
CP CR CT CD
ECON 02312 06292 01572 05646
ESIN 02312 04248 01269 05192
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30
sesiones experimentales
En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos
casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares
por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba
que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la
figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a
los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no
se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en
el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el
perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con
alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras
del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en
el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72
102
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
09Va
lor
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1
000
005
010
015
020
025
Valo
r
ECON ESIN
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
103
RESULTADOS DE LOS EXPERIMENTOS
Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso
ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las
anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten
media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media
maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y
como se define en la foacutermula (64)
Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
Valo
r
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza
los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor
medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor
Para comprobar si existen diferencias significativas entre los dos tratamientos del
perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos
obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba
estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su
normalidad condicioacuten indispensable para aplicar el test de Student
Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de
00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera
104
RESULTADOS DE LOS EXPERIMENTOS
muy significativo Por lo tanto se considera que si existen diferencias significativas entre el
caso ECON y el caso ESIN seguacuten la tasa CD
Paraacutemetros ECON ESIN
Media 05646 05192
Muestra 30 30
Desviacioacuten Estaacutendar 01740 01934
P del test de Normalidad 00572 gt010
Test t-Student (2 colas) 00025
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN
destacando el valor de la prueba t -Student para la tasa CD
Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la
praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados
hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos
titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con
mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender
directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el
sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y
CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no
ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan
al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede
esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de
significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea
de intereacutes
En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de
titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las
noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema
a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una
noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto
que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil
105
RESULTADOS DE LOS EXPERIMENTOS
Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento
del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras
del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente
sus resultados
Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el
perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias
estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor
cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la
mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de
titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a
su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que
cero
Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON
respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el
funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean
diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor
estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las
noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su
historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes
experimentos
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)
En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido
foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron
30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y
33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como
puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el
sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol
Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas
consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que
en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de
hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del
experimento 1 anterior
106
RESULTADOS DE LOS EXPERIMENTOS
Los valores medios obtenidos para la tasa CD en los distintos casos considerados
despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la
figura 74 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 2 ndash Valor medio de la tasa CD
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol
04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones
experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido
SINfol
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02
03
04
05
06
07
08
Valo
r
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida
hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan
valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol
Se observa que los resultados obtenidos por la tasa CD para los distintos valores del
intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha
calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la
obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para
107
RESULTADOS DE LOS EXPERIMENTOS
comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series
de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada
uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para
aplicar la prueba t- Student
Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de
06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera
no significativo Por lo tanto se considera que no existen diferencias significativas entre la
consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten
de tal factor de olvido seguacuten la tasa CD
Paraacutemetros Factor de olvido
con hl=7
Sin factor de
olvido
Media 05681 05652
Muestra 30 30
Desviacioacuten Estaacutendar 01500 01387
P del test de Normalidad gt010 gt010
Test t-Student (2 colas) 06292
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con
intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la
prueba t -Student para la tasa CD
Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de
diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido
con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema
pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten
se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es
por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el
proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute
durante los siguientes experimentos
108
RESULTADOS DE LOS EXPERIMENTOS
73 Experimento 3 Importancia Relativa de los Perfiles (IRP)
Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el
rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil
de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)
Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro
a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil
elaborado por la sesioacuten en curso
Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros
durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)
(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)
Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la
tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea
de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de
titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el
tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los
distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la
tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)
(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)
06186 06240 06283 06306 06319 06315 06286 06223 06123
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones
experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b
En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los
casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)
La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene
ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario
despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media
para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten
auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si
existen diferencias significativas entre las distintas series de valores
109
RESULTADOS DE LOS EXPERIMENTOS
Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos
paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten
Ps y el perfil acumulado P tal y como se define en la foacutermula (515)
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP
(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040
045
050
055
060
065
070
075
080
Valo
r
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de
usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par
(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)
Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta
al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la
elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el
experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las
diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados
Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten
los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten
50 para los paraacutemetros a y b de la foacutermula (515)
Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones
experimentales con el sistema considerando el caso que denotaremos por ECON2
110
RESULTADOS DE LOS EXPERIMENTOS
cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se
utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se
muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha
observado en el experimento 1
A diferencia de los experimentos anteriores donde se obtuvieron valores medios en
este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones
para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados
obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados
middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y
ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos
cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten
Experimento 4 - Resultados para la tasa CD
Lineal (ECON2) y = 00004x + 06538
Lineal (ESIN2) y = -00027x + 06788
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los
resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de
tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable
Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes
a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la
serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la
111
RESULTADOS DE LOS EXPERIMENTOS
pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo
largo de las sesiones para este segundo caso
Estos resultados nos confirman las conclusiones obtenidas para el experimento 1
donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las
noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos
de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada
sesioacuten con el sistema
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)
En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes
usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los
resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su
adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos
usuarios
Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se
configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que
presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por
puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos
titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar
desplazamiento vertical alguno
Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30
sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el
sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el
perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del
capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras
30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes
entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-
experimento al no existir perfil de usuario alguno se ofrecen todos los titulares
Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen
en las tablas y graacuteficos de las secciones siguientes
112
RESULTADOS DE LOS EXPERIMENTOS
751 Comparacioacuten de Tasas
En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la
sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se
representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas
en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se
representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN
a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de
titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en
el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la
sesioacuten
La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el
caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como
destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute
los mismos resultados que la tasa CT para el caso ldquoORDENrdquo
Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357
CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071
CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927
CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en
los casos ldquoORDENrdquo y ldquoAZARrdquo
Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267
CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062
CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845
CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones
experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo
113
RESULTADOS DE LOS EXPERIMENTOS
Observando el graacutefico de la figura 77 donde se representan los valores obtenidos
por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78
donde se representan los valores medios calculados para dicha tasa en las 30 sesiones
experimentales vemos que para todos los usuarios se han obtenido mayores valores para el
caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso
ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso
ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir
mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el
intereacutes del usuario
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de
0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo
Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30
sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo
Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el
caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Observando el graacutefico de la figura 79 donde se representan los valores obtenidos
por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710
donde se representan los valores medios calculados para dicha tasa vemos que para todos
los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los
titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al
azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el
usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor
cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados
seguacuten el intereacutes del usuario
114
RESULTADOS DE LOS EXPERIMENTOS
Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios
Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios
21 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
USUARIOS
Valo
r
ORDEN AZAR
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
115
RESULTADOS DE LOS EXPERIMENTOS
A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los
titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los
titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el
usuario escogiese todos los titulares recomendados por el sistema De esta manera se
obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos
de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de
0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos
los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376
en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un
220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios
116
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
12
USUARIOS
Valo
r
ORDEN AZAR
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
752 Error Absoluto Medio y Coeficiente de Correlacioacuten
En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se
presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso
ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes
medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y
porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece
En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten
experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula
(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se
representan estos resultados
En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten
experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en
la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente
117
RESULTADOS DE LOS EXPERIMENTOS
Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051
σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019
r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten
entre titulares en la sesioacuten experimental 30 por 15 usuarios
Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000
005
010
015
020
025
030
035
USUARIOS
Valo
r
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y
la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior
a 015 y una Desviacioacuten Estaacutendar media inferior a 005
Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios
experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025
obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2
11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos
los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios
118
RESULTADOS DE LOS EXPERIMENTOS
es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la
conclusioacuten anterior
Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten
entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios
En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten
entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los
usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente
un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares
propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten
753 La R-Precisioacuten
Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute
al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el
caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder
calcular entonces la precisioacuten en la posicioacuten R del orden
119
RESULTADOS DE LOS EXPERIMENTOS
La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten
del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones
experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los
titulares ordenados al usuario
En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los
15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan
en la figura 713
Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
01
02
03
04
05
06
07
08
09
10
USUARIOS
Valo
r
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el
sistema La media mayor es la del usuario 11 y la menor es la del usuario 8
En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten
para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que
maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]
120
RESULTADOS DE LOS EXPERIMENTOS
del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario
ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de
0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para
la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten
media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo
Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la
R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones
experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones
experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media
para esta medida el 11
En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos
por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia
de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se
calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la
pendiente y b es la interseccioacuten
Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios
y = 00058x + 03154
y = 00132x + 05664
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30
sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una
evolucioacuten favorable de la R-Precisioacuten
121
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de
la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de
tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en
ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo
para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de
titulares
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en el
experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como
medida alternativa en la seccioacuten 531 del capiacutetulo 5
En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas
noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno
para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el
usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan
en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De
esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de
resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante
la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el
mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten
Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP
CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no
resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna
manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en
ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares
similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo
Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados
sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la
sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo
la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la
puntuacioacuten media ideal que en el caso ldquoCOSrdquo
122
RESULTADOS DE LOS EXPERIMENTOS
Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los
valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica
que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo
En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r
en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la
figura 715 se representan graacuteficamente estos datos
Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias
caso r r
COS 0989 0964
JAC 0989 0936
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30
junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo
Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC
COS media COS JAC media JAC06
07
08
09
10
11
Valo
r
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de
Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y
ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo
123
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la
sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y
ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso
ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la
Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien
puntuados por el sistema
Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones
en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento
al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de
Jaccard
En general se puede concluir que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la
calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste
experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no
de una palabra en dicho perfil de usuario
77 Resumen
En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en
los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema
propuesto y su eficacia con diversos usuarios
El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema
considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con
nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de
los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos
versiones configuradas del sistema una considerando los resuacutemenes y otra sin
considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en
concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas
mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD
que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el
objeto de determinar que efectivamente existen diferencias significativas entre las dos
alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten
de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se
mantendraacute para el resto de experimentos
124
RESULTADOS DE LOS EXPERIMENTOS
En el segundo experimento (DIV) se probaron diversos valores para el intervalo de
vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En
este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas
propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse
exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados
del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece
significativamente al sistema por lo que finalmente se desestimoacute su uso
El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores
proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten
seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los
resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes
similitudes en el comportamiento de los pares considerados experimentalmente se observoacute
la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media
aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado
El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas
en el primer experimento (CRS) pero en este caso considerando los valores que se han
determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En
este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para
los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables
cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil
de usuario confirmando por tanto las conclusiones del primer experimento
El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con
diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo
realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales
Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la
misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes
necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de
titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario
correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el
sistema configurado para que ofreciera los titulares aleatoriamente al usuario
Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten
las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de
titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la
125
RESULTADOS DE LOS EXPERIMENTOS
Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen
funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la
puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge
cada usuario
Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten
obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se
analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los
usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos
una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un
comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente
mejores ordenaciones de titulares
Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida
distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida
del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores
medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos
medidas concluyendo por tanto que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten elegido
126
Capiacutetulo 8
CONCLUSIONES
En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo
para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de
fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus
preferencias
En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de
informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos
Posteriormente se describieron los aspectos a tener en cuenta para definir y crear
perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de
usuario y las teacutecnicas de inferencia asociadas
El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la
bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer
un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un
agregador inteligente que recomienda contenidos al usuario denominado NectaRSS
Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf
descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de
titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la
medida de Jaccard
Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y
se comproboacute su validez
Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de
investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS
127
CONCLUSIONES
81 Principales Aportaciones y Conclusiones
Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten
Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de
recomendar eacutesta a un usuario seguacuten sus preferencias
Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y
confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial
de seleccioacuten de la informacioacuten ofrecida
Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para
dar la informacioacuten maacutes relevante
Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se
realizan de manera totalmente transparente al usuario
Se han evaluado diferentes estrategias y opciones para que el resultado del sistema
sea oacuteptimo
Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para
distintos usuarios heterogeacuteneos
Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las
ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para
eacuteste que un orden aleatorio
Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se
aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente
128
CONCLUSIONES
elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los
titulares desde el punto de vista del usuario
El sistema demuestra un funcionamiento adecuado para distintos usuarios
El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la
informacioacuten elegido
El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a
sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica
puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que
realmente le interesa sin tener que realizar ninguna otra accioacuten adicional
82 Liacuteneas de investigacioacuten futuras
El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de
investigacioacuten originales que se considera de intereacutes abordar
Determinar el rendimiento del sistema considerando conjuntos de palabras
encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario
Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos
que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en
la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario
Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la
suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario
Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se
mantenga un perfil para cada usuario que visite la paacutegina de los titulares de
129
CONCLUSIONES
informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la
proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de
especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo
Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten
del perfil de usuario
Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses
Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la
informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen
distintos usuarios con perfiles similares
Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a
las que el usuario haya preseleccionado
130
Bibliografiacutea y Referencias
[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive
interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 22-32
[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a
Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso
(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia
Italy Wien SpringerWienNewYork 365-376
[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and
clique-based user models for movie selection a comparative study User Modeling and User Adapted
Interaction 7(4) 279-304
[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture
for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 59-61
[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable
system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159
[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and
Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998
[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press
Addison-Wesley 1999
[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In
Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey
USA 378-385
131
BIBLIOGRAFIacuteA Y REFERENCIAS
[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated
real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 215-226
[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan
recognition User Modeling and User Adapted Interaction 5(3-4) 317-348
[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989
[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier
Science Publishers 1990
[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext
reading system User Modeling and User Adapted Interaction 4(1) 1-19
[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user
modeling systems International Journal of Human-Computer Studies 40 31-62
[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible
Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004
httpwwww3orgTR2004REC-xml11-20040204
[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of
predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on
Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52
[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM
Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT
Press
[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation
Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean
VA Nov 2000 pp 227-234
httpwwwittckueduobiwan
132
BIBLIOGRAFIacuteA Y REFERENCIAS
[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles
Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer
Science Florida Institute of Technology Melbourne Australia
httpciteseeristpsueduchan99noninvasivehtml
[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W
Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989
[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London
Library Association 1999
[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the
Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project
Cranfield (1966)
[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the
American Society for Information Science v 24 March-April 1973 p87-92
[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing
interests International Journal on Digital Libraries 2 (1) 38-53
[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing
amp Management 23 4 1987 p 249-254
[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos
(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes
[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW
The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994
httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml
[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML
Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas
Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre
de 1998
133
BIBLIOGRAFIacuteA Y REFERENCIAS
[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW
Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998
[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW
Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001
httpservidortiuibesadelaidaCIVEadecivehtm
[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval
Journal of the American Society for Information Science 51 (7) 2000 p 614-624
[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005
httpwwwfeedstercom
[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-
site management system SIGMOD Record 26(3) 4-11 1997
[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information
provision for all users including disabled and elderly people The New Review of Hypermedia and
Multimedia 4 163-188
[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego
Academic Press cop1997 XIV 365 p
[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de
Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos
Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12
Nov de 2002
[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-
Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal
In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies
Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer
Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56
134
BIBLIOGRAFIacuteA Y REFERENCIAS
[Goo 2005] Google Directory RSS News Readers Julio de 2005
httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science
Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers
[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and
heuristics Boston Kluwer Academia Publishers 1998
[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S
The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference
Brisbane Australia 1998
[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic
Publishers 1994
[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system
for supporting information providers in directing users through hyperspace Proceedings of the 3rd on
Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and
Hypermedia 147-156
[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices
in a virtual community of use In Proceedings of CHI 95 Denver CO 1995
[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a
declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-
Oriented Database (DOOD) pages 386-398 Singapore 1997
[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search
engines to query AI Magazine 18(2) 19-25 1997
[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999
httpwwww3orgTRhtml401
135
BIBLIOGRAFIacuteA Y REFERENCIAS
[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an
overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251
1996
[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web
Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th
international conference on World Wide Web 2004
[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext
client of the user modeling system BGP-MS Proceedings of the 4th International Conference on
User Modeling 99-105
[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell
system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106
[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl
J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM
40(3) 77-87
[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley
Computer Publisher 1997
[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface
integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support
ergonomic design of manually and automatically adaptable software Lawrence Erlbaum
97-125
[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW
Conference Santa Clara CA USA 1997
[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington
Virginia Information Resources 1993
[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995
136
BIBLIOGRAFIacuteA Y REFERENCIAS
[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the
14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-
1710
[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer
collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International
Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf
[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of
the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-
929
[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis
Doctoral Universitat Jaume I Castelloacuten 2002
[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva
perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la
Informacioacuten (JOTRI) 2002
[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the
ACM 37 (7) 31- 40
[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86
[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press
1993
[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la
evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de
Documentacioacuten Nordm 7 pp 153-170 2004
[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten
de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten
II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004
137
BIBLIOGRAFIacuteA Y REFERENCIAS
[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user
preferences ontologies in recommender systems In Proceedings of the 1st International Conference
on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001
[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based
inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-
282
[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D
1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91
[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive
information access to scholarly publications on the Web Artificial Intelligence Laboratory
Department of Mathematics and Computer Science 2002
[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL
Development Officer Heriot-Watt University Edinburgh UK 2003
[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering
and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996
[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel
httpwwwuninechinfoclef
[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World
Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997
[OBIWAN 1999] OBIWAN Project University of Kansas 1999
httpwwwittckueduobiwan
[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system
User Modeling and User Adapted Interaction 4 (2) 107-130
[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User
Modeling and User Adapted Interaction 4 (3) 197-226
138
BIBLIOGRAFIacuteA Y REFERENCIAS
[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C
1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay
(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-
Verlag 45-54
[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert
Identifying interesting web sites Proceedings of the 13th National Conference on Artificial
Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml
[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval
progress report Information Processing and Management 36 2000 p 155-178
[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St
Augustin Germany
[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales
assistants User Modeling and User Adapted Interaction 5(3-4) 349-370
[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993
[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea
httpwwwraees
[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online
recruitment environment Smart Media Institute University College Dublin Ireland
mayacsdepauledu~mobasheritwp01papersrafterpdf
[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search
httpwwwcsutexaseduusersmooney
[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues
and Options Workshop House subcommittee on science research and technology
Washington DC Nov 3 1976
139
BIBLIOGRAFIacuteA Y REFERENCIAS
[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354
[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second
edition 1979 httpwwwdcsglaacukKeith
[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal
of American Society for Information Science 27(3)129-46 1976
[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD
Thesis Harvard University Report ISR-10 to National Science Foundation Harvard
Computation Laboratory (1966)
[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center
Editor Dave Winer En liacutenea julio de 2005
httpblogslawharvardedutechdirectory5aggregators
[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005
httpwwwrssfeedscomreadersphp
[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for
the web Communications of the ACM 40(3) 66-73
[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L
Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001
Enero 2003
[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971
[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer
Science Series McGraw-Hill 1983
[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of
Information by-Computer Addison-Wesley 1998
140
BIBLIOGRAFIacuteA Y REFERENCIAS
[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI
NOVATICA nordm 158 pag 5-9 2002
[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation
Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp
115-152
[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive
Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling
[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler
4th Int WWW Conference 1995
[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en
Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005
httpwwwsiaeuiupmesgruposAinfo2pdf
[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example
MIT Lab Cambridge USA
[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones
sobre Literatura en Espantildeol 2003
httppeterpaneuiupmesindexhtml
[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal
of Man-Machine Studies 23 71-88
[Snow 2005] Snowball httpsnowballtartarusorg
[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of
Documentation 31(4)266-72 1975
[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information
Processing and Management 15(3)133-44 1979
141
BIBLIOGRAFIacuteA Y REFERENCIAS
[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML
Technical report Text Encoding Initiative 1996
[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist
user modeling in a complex commercial software system User Model and User-Adapted Interaction
10 (2-3) 109-146
[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic
user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings
of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien
SpringerWien NewYork 189-200
[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited
Information Processing and Management 28 4 pp 467-490 1994
[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability
and usefulness of the WWW 5th International Conference on User Modeling 5-12
[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten
sobre Estructura y Contenido 1999
[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of
the American Society for Information Science 48(2) 1997 p133-142
[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a
methodology for production coherent consistent dynamically changing models of agentrsquos competencies User
Modeling and User Adapted Interaction 5 (2) 117-150
[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the
Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss
[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley
1949
142
Anexo I Lenguajes de definicioacuten de documentos
En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la
recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos
de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute
parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a
introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de
XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el
segundo denominado Atom con un cometido muy parecido al RSS
Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan
tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los
documentos para delimitar los elementos de estructura Por una parte diferenciaremos
entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de
distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de
definicioacuten de un tipo de documento concreto es decir una instancia de SGML
SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por
iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del
mundo editorial que son los contenidos y la forma de presentar esos contenidos en este
caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el
contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML
permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un
lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene
nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este
lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en
[Herwijnen 1994]
AI1 Hypertext Markup Language
HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado
que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su
estructura y contenido
AI-1
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia
difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su
consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]
El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes
documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que
sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria
sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador
que se utilice el responsable de asegurar que el documento tenga un aspecto coherente
independientemente del tipo de maacutequina desde donde se acceda al documento De esta
manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que
facilita enormemente su manejo por cualquier persona
HTML es un lenguaje muy sencillo que permite preparar documentos Web
insertando en el texto de los mismos una serie de etiquetas o tags que controlan los
diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas
que controlan el comportamiento del documento son fragmentos de texto encerrados entre
aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan
simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten
imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento
Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas
con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]
AI12 Evolucioacuten del Lenguaje HTML
El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico
objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre
fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el
lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se
habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador
realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el
sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994
Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se
descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de
HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo
borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades
AI-2
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de
expresiones matemaacuteticas
Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten
en HTML lenguaje apropiado para elaborar de manera sencilla documentos con
posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo
tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML
No se permite que el usuario especifique su propias etiquetas o atributos para
parametrizar o cualificar semaacutenticamente sus datos
No soporta la especificacioacuten de estructuras complicadas para representar esquemas
de bases de datos o jerarquiacuteas orientadas al objeto
No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar
la validez estructural de los datos en el momento de su importacioacuten
AI2 Extensible Markup Language
Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes
de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C
creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para
desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las
aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de
construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y
directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de
estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser
utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de
2005 es la 11 [Bray 2004]
Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la
Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar
Este subconjunto diferiraacute de HTML en tres aspectos fundamentales
1 Se pueden definir nuevas etiquetas y atributos
2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de
complejidad
AI-3
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
3 Cualquier documento XML puede contener una descripcioacuten opcional de su
gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una
validacioacuten estructural
El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el
contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron
[Bray 2004]
Debiacutea ser directamente utilizable sobre Internet
Debiacutea ser compatible con una amplia variedad de aplicaciones
Debiacutea ser compatible con SGML
Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML
Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero
Los documentos XML deberiacutean ser legibles y razonablemente claros
Un disentildeo de XML deberiacutea poderse preparar raacutepidamente
El disentildeo de XML debiacutea ser formal y conciso
Los documentos XML deben ser faacuteciles de crear
AI21 Estructura de XML
Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de
otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los
empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee
normalmente reflejando el tipo de contenido que delimitan
Un ejemplo de sencillo documento XML se muestra a continuacioacuten
ltpersonagt
ltnombre_completogt
ltnombregtJuanltnombregt
ltapellidosgtPeacuterez Fernaacutendezltapellidosgt
ltnombre_completogt
lttrabajogtfontanerolttrabajogt
ltpersonagt
AI-4
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos
elementos hijos del anterior denominados nombre_completo y trabajo En un
documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo
Aunque no es estrictamente obligatorio los documentos XML deben tener una
declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la
codificacioacuten del texto del documento encoding y la autonomiacutea del documento
standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten
externa para determinar los valores apropiados de ciertas partes del documento Una
declaracioacuten ejemplo es la siguiente
ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt
Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor
adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo
un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo
ltpersona nacida=rdquo23-06-1912rdquogt
Alan Turing
ltpersonagt
AI22 Documentos XML bien-formados
Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe
cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son
Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca
final ldquoltrdquo
Los elementos pueden estar anidados pero no superpuestos
Soacutelo puede existir un elemento raiacutez
Los valores de los atributos deben ir entrecomillados
Un elemento no puede tener dos atributos con el mismo nombre
Los comentarios y las instrucciones de proceso no pueden aparecer entre las
marcas
AI-5
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI23 Especificaciones XML
Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas
especificaciones para XML destacando las siguientes
DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento
Contendraacute una definicioacuten formal de un tipo de documento y a la vez una
especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina
como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado
concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional
en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar
bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se
dice que el documento XML es vaacutelido
XML Schema Es una manera de definir tipos de documentos alternativa a DTD
resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue
especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute
fechada a junio de 20052
XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo
de los documentos escritos para XML Permite modificar el aspecto de un
documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL
Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute
definir transformaciones en forma de reglas para convertir un documento XML en
otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir
el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas
bloques de texto en las paacuteginas graacuteficos y muchos otros
Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes
particulares de un documento XML Como soporte para este objetivo principal
tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y
booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de
1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath
AI-6
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un
documento XML
Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos
XML Los enlaces podraacuten ser simples como los habituales en HTML
bidireccionales enlazando dos documentos en ambas direcciones y
multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de
documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML
AI3 Rich Site Summary
ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir
faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para
utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros
muchos tales como los blogs7 o diarios personales en la Web
Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en
una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a
una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es
accesible mediante el enlace del fichero RSS
Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF
Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que
estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una
coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos
simultaacuteneamenterdquo [Moffat 2003]
AI31 Historia y Origen de RSS
Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en
su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado
6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html
AI-7
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador
ofreciendo una forma muy simple de publicar contenidos y permitiendo a los
desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo
Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten
anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la
aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos
RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como
propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado
por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de
extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten
constantemente Generalmente los ficheros se guardan con extensioacuten RDF
RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten
basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado
de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de
su objetivo proporcionar una herramienta para publicar contenidos de una forma
raacutepida y sencilla en la Web
AI32 RSS 092
Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente
compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son
opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido
Elementos obligatorios
En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el
documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o
canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a
continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss
AI-8
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio
ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt
ltdescriptiongt -- La frase que describe el canal
Elementos opcionales
ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos
son opcionales y otros tres son requeridos
lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal
lttitlegt -- Describe la imagen
ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los
elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del
canal
Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son
nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt
contendraacute un texto relacionado con el renderizado de la imagen en HTML
ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los
agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una
uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo
ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal
ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de
contacto para cuestiones de edicioacuten
ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de
contacto si existen problemas teacutecnicos
ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal
ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en
RSS estaraacuten conformes a la especificacioacuten RFC 82215
14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs
AI-9
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal
ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato
utilizado en el fichero RSS
lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione
realimentacioacuten en forma de texto Contiene varios sub-elementos que son
requeridos
lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto
ltdescriptiongt -- Describe el area de texto donde se escribe
ltnamegt -- Nombre del objeto de texto
ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto
ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos
del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o
Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en
este elemento
ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos
de hora que representan la hora en formato GMT17 Los lectores de noticias no
leeraacuten el canal durante las horas especificadas en este elemento
15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich
AI-10
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
iquestQueacute es un iacutetem
Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben
contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno
de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute
compuesto por los siguientes elementos opcionales
lttitlegt Es el tiacutetulo de la noticia
ltlinkgt Direccioacuten Web que apunta a la noticia
ltdescriptiongt Es el resumen de la noticia
Nuevos elementos respecto a la versioacuten RSS 091
ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal
RSS de donde proviene el item se deriva del tiacutetulo
ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto
adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra
ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten
el estaacutendar MIME18
ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo
opcional domain que identificaraacute la categoriacutea en una taxonomiacutea
ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un
servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal
18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje
AI-11
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 092
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un
canal y un elemento item
ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt
ltrss version=092gt
ltchannelgt
lttitlegtELPAISeslttitlegt
ltlinkgthttpwwwelpaisesltlinkgt
ltdescriptiongtRSS de ELPAISesltdescriptiongt
ltlanguagegtes-esltlanguagegt
ltitemgt
lttitlegtEspantildea consigue sus primeros oros en los Juegos del
Mediterraacuteneolttitlegt
ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt
ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una
exitosa jornada de competicioacuten donde sumoacute un total de 23
medallasltdescriptiongt
ltitemgt
ltchannelgt
ltrssgt
En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten
de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y
el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y
descripcioacuten correspondientes
AI-12
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI33 RSS 20
Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible
con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20
vaacutelido
Nuevos elementos respecto a la versioacuten anterior
Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan
definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han
incorporado los siguientes
ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la
direccioacuten Web donde se encuentran los comentarios acerca del item
ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el
programa que ha generado el archivo RSS
ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la
direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la
persona que ha escrito el artiacuteculo
ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de
vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el
canal en memoria antes de ser refrescado
ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que
indica cuaacutendo fue publicado el item
ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador
uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el
item es nuevo o no
AI-13
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 20
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un
canal y dos elementos item
ltxml version=10 encoding=utf-8 gt
ltrss version=20gt
ltchannelgt
lttitlegtEl Blog Salmoacutenlttitlegt
ltlinkgthttpwwwelblogsalmoncomltlinkgt
ltdescriptiongtEl Blog Salmoacutenltdescriptiongt
ltcopyrightgtCopyright 2005ltcopyrightgt
ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt
ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt
ltdocsgthttpblogslawharvardedutechrssltdocsgt
ltitemgt
lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt
ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt
ltitemgt
ltitemgt
lttitlegtVuelven las nacionalizacioneslttitlegt
ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt
ltitemgt
ltchannelgt
ltrssgt
Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS
tales como ltgeneratorgt y ltpubDategt
AI-14
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI4 Atom
Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten
de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la
distribucioacuten de contenidos y noticias de sitios web
Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares
similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de
muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en
proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom
La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005
Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda
raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener
maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS
Un ejemplo de Atom 10
Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una
sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de
RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt
ltxml version=10 encoding=utf-8gt
ltfeed xmlns=httpwwww3org2005Atomgt
lttitlegtEjemplo de entradalttitlegt
ltlink href=httpexampleorggt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltauthorgt
ltnamegtJuan Jltnamegt
ltauthorgt
ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt
ltentrygt
lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt
ltlink href=httpexampleorg20031213atom03gt
ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltsummarygtTexto del resumenltsummarygt
ltentrygt
ltfeedgt
19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html
AI-15
Anexo II Un Agregador Inteligente
Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos
disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa
desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el
mismo nombre por simplicidad
La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones
que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o
usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y
seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen
es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como
cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al
usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se
muestra el aspecto usual del programa
Figura AII1 Aspecto principal del programa NectaRSS
AII-1
UN AGREGADOR INTELIGENTE
Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea
acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute
otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya
subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre
seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos
tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS
Para efectuar los experimentos se dotoacute al programa de un modo de trabajo
especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni
destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha
considerado para no condicionar en modo alguno las decisiones del usuario experimental a
la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura
AII3
AII-2
UN AGREGADOR INTELIGENTE
Figura AII3 Aspecto del programa NectaRSS en modo experimento
Adicionalmente el programa genera una paacutegina web con las recomendaciones de
titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin
httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del
diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los
visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute
personalizado para un usuario concreto puede resultar interesante a personas que
compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en
la figura AII4
AII-3
UN AGREGADOR INTELIGENTE
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el
programa NectaRSS
A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la
evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del
programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los
experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos
resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores
numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo
informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad
AII-4
UN AGREGADOR INTELIGENTE
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema
Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web
Diario El Mundo (httpabraldesnetfeedselmundoxml)
Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)
Barrapunto (httpbackendsbarrapuntocombarrapuntorss)
Diario Marca (httpabraldesnetfeedsmarcaxml)
Kriptoacutepolis (httpwwwkriptopolisorgrss)
eCuaderno (httpwwwecuadernocomindexxml)
xataka (httpxatakacomesindexxml)
alzadoorg (httpwwwalzadoorgxmlalzadoxml)
Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)
tintachina (httpwwwtintachinacomindexxml)
Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)
Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)
TIME Magazine (httprsstimecomwebtimersstopindexxml)
CNET reviews (httpreviewscnetcom4924-5_7-0xml)
Artnovela (httpwwwartnovelacomarbackendphp)
Blogdecine (httpwwwblogdecinecomindexxml)
Stardustcf (httpwwwstardustcfcomrdfasp)
Una furtiva mirada (httpfurtivosbloxuscomrdfxml)
Pedro Jorge (httpwwwpjorgecomrss)
Atalaya (httpatalayablogaliacomrdfxml)
Malos Pensamientos (httpmpblogaliacomrdfxml)
Libryscom (httpwwwlibryscomfeedrss)
El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)
AII-5
ii
Agradecimientos
Mi respeto y agradecimiento profundo a todas las personas que me han
ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis
Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su
paciencia y dedicacioacuten
iii
iv
Resumen
En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten
denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los
intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las
preferencias del usuario evitando la realimentacioacuten expliacutecita
Se realiza una revisioacuten de todos los conceptos relacionados con el sistema
mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el
problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente
Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la
implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos
demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses
de cada individuo
Abstract
In this thesis a new system called NectaRSS for information retrieval and filtering is
presented The system recommends information to a user based on his past choices The
method automatically accomplishes the task of user preferences acquisition avoiding
explicit feedback
In this work a review of all the concepts related to the system is first performed
showing different approaches to the problem of user profile construction emphasizing
web information retrieval systems where NectaRSS will be initially applied
The efficiency of the proposed method is proved applying it to the implementation
of an intelligent aggregator used by different and heterogeneous users proving its ability to
offer the information personalized according to each individualrsquos interests
v
vi
IacuteNDICE GENERAL
Agradecimientosiii
Resumen v
IacuteNDICE GENERAL vii
IacuteNDICE DE FIGURAS xi
IacuteNDICE DE TABLAS xv
1 INTRODUCCIOacuteN 1
11 Organizacioacuten de la tesis 2
2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5
21 Introduccioacuten5
22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7
2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13
222 El Modelo Probabiliacutestico 17
23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20
2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26
Navegadores 26 Agregadores de contenidos 27
233 Sistemas de recomendacioacuten 29
24 Resumen 31
3 EVALUACIOacuteN DE LOS SISTEMAS RI 33
31 Relevancia y Pertinencia 33
32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41
vii
IacuteNDICE GENERAL
324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45
3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46
33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50
34 Resumen 52
4 PERFILES DE USUARIO 55
41 iquestQueacute es un Perfil 55
42 Meacutetodos de creacioacuten de perfiles 56
43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60
44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61
4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61
442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63
4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64
45 Realimentacioacuten del usuario 64
46 Agentes Software y creacioacuten de perfiles 66
47 Modelos Estadiacutesticos 67
48 Razonamiento Basado en Reglas 68
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario
automaacutetico 68
410 Resumen 70
viii
IacuteNDICE GENERAL
5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS
BASADO EN PERFILES 73
51 Introduccioacuten73
52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de
navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario
77
53 Caacutelculo de la puntuacioacuten de los titulares79
531 Puntuacioacuten alternativa de los titulares 81
54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82
55 Resumen 83
6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85
61 Objetivo general del sistema y esquema de su experimentacioacuten 85
62 Metodologiacutea seguida 86
63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90
64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99
65 Resumen 100
7 RESULTADOS DE LOS EXPERIMENTOS101
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106
73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113
ix
IacuteNDICE GENERAL
752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122
77 Resumen 124
8 CONCLUSIONES 127
81 Principales Aportaciones y Conclusiones 128
82 Liacuteneas de investigacioacuten futuras 129
Bibliografiacutea y Referencias131
Anexo I Lenguajes de definicioacuten de documentos AI1
AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2
AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6
AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13
AI4 Atom AI15
Anexo II Un Agregador Inteligente AII1
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5
x
IacuteNDICE DE FIGURAS
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57
Figura 51 Vista general del sistema NectaRSS propuesto 74
xi
IacuteNDICE DE FIGURAS
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116
xii
IacuteNDICE DE TABLAS
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123
Figura AII1 Aspecto principal del programa NectaRSS AII1
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2
Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4
xiii
IacuteNDICE DE TABLAS
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105
xv
IacuteNDICE DE TABLAS
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123
xvi
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA
PRESENTE MEMORIA
RI Recuperacioacuten de Informacioacuten
SRI Sistema de Recuperacioacuten de Informacioacuten
E-P Par Exhaustividad-Precisioacuten
P Perfil de usuario
Ps Perfil de sesioacuten
Pr Perfil de resumen
T Conjunto de titulares
E(T) Conjunto de titulares elegidos
D(T) Conjunto de titulares destacados
CRS Con Resumen ndash Sin resumen
DIV Determinacioacuten del Intervalo de Vida
IRP Importancia Relativa de los Perfiles
CRS2 Con Resumen ndash Sin resumen (2)1
PAU Prueba del Algoritmo con diferentes Usuarios
PPA Probar Puntuacioacuten Alternativa
tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di
tfhk Frecuencia del teacutermino tk en el titular h
wij Relevancia del teacutermino tj en el documento di
wh Vector caracteriacutestica del titular h
sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh
fol Factor de olvido
CP Tasa que mide el porcentaje de titulares elegidos
1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros
xvii
ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS
CR Tasa que mide el porcentaje de titulares ofrecidos destacados
CT Tasa que mide el porcentaje de titulares elegidos destacados
CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la
puntuacioacuten media maacutexima
E Error Absoluto Medio
σ Desviacioacuten Estaacutendar del Error
r Coeficiente de Correlacioacuten entre titulares
RP(i) R-Precisioacuten en la sesioacuten i
xviii
Capiacutetulo 1
INTRODUCCIOacuteN
En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente
indispensable y en la principal fuente de informacioacuten para una parte importante de la
poblacioacuten del mundo desarrollado
Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de
2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se
tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o
intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo
tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de
fuentes muy variadas
En general dada la gran cantidad de fuentes de informacioacuten disponibles
actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de
un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente
inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada
hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten
ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que
una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos
maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que
pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten
ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma
automaacutetica
Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de
informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias
que denominaremos NectaRSS
1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom
1
INTRODUCCIOacuteN
Como segundo objetivo buscaremos una forma de obtener las preferencias del
usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en
el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten
incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya
realizando tal usuario
Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear
ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes
estrategias y opciones para que el resultado sea oacuteptimo
11 Organizacioacuten de la tesis
Esta tesis se organiza de la forma siguiente
El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y
de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial
de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de
recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la
relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado
automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como
sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten
especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho
contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se
fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de
la Web en particular y en conocer los modelos tiacutepicos para representar los
documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute
el modelo vectorial
En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas
de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la
pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten
destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad
principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar
la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se
tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas
alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la
2
INTRODUCCIOacuteN
medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las
teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario
para aplicar dichas teacutecnicas al sistema experimental NectaRSS
El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes
se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas
para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de
adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la
adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil
de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de
razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la
realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil
correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas
utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los
modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o
ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas
Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web
basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro
trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de
usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las
preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para
representar las preferencias de eacuteste
En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y
recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador
inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema
comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil
de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la
utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute
coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del
coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema
propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la
base teoacuterica que subyace en dicho sistema
El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se
expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea
3
INTRODUCCIOacuteN
seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la
experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que
se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del
sistema en base a las variables consideradas en los experimentos distinguiendo
distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten
referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de
informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el
usuario respecto a la que le ofrece el sistema empleando para ello medidas como el
Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la
R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute
medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental
propuesto NectaRSS
En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados
obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer
conclusiones que permitan determinar diversos paraacutemetros del sistema y para
evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando
su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la
efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas
que evaluacutean su funcionamiento
Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales
aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido
y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la
tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir
de la investigacioacuten con NectaRSS
4
Capiacutetulo 2
LOS SISTEMAS DE RECUPERACIOacuteN DE
INFORMACIOacuteN
En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado
en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI
o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos
modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten
de informacioacuten en la Web y los sistemas de recomendacioacuten
El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis
NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea
de intereacutes de los usuarios analizando para ello el contenido de los documentos se
realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de
cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se
realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las
preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta
manera se podraacute recomendar la informacioacuten a cada usuario
21 Introduccioacuten
La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una
determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow
1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es
traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada
por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]
Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos
relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman
1998]
Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por
Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten
5
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza
define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de
informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos
relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo
[Baeza 1999]
Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno
recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se
diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los
gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un
conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que
determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la
peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de
indizacioacutenrdquo
Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel
conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de
informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]
22 Modelos para la recuperacioacuten de informacioacuten
Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se
obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar
la relevancia de un documento respecto a una consulta los meacutetodos para establecer la
importancia u orden de los documentos de salida y los mecanismos que permiten una
realimentacioacuten por parte del usuario para mejorar la consulta
Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por
[Dominich 2000] que se muestra en la tabla 21
Partiendo de la tarea inicial que realiza el usuario es posible realizar una
clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de
informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de
documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se
introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de
estructura guiada o de hipertexto seguacuten puede verse en la tabla 22
6
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Modelo Descripcioacuten
Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial
Alternativos Basados en la Loacutegica Fuzzy
Loacutegicos Basados en la Loacutegica Formal
Basados en la
interactividad
Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de
retroalimentacioacuten por relevancia
Basados en la
Inteligencia Artificial
Redes neuronales bases de conocimiento algoritmos geneacuteticos y
procesamiento de lenguaje natural
Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente
[Dominich2000]
Vista loacutegica de los documentos
Teacuterminos iacutendice Texto Completo Texto Completo +
Estructura
Recuperacioacuten Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Claacutesicos
Conjuntos teoacutericos
Algebraicos
Probabiliacutesticos
Estructurados
Mod
alida
d
Navegacioacuten Estructura plana Estructura plana
Hipertexto
Estructura guiada
Hipertexto
Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la
modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]
221 El Modelo Vectorial
Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el
modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada
documento estaba representado por un vector de teacuterminos y cada componente del vector
representaba el peso wij del teacutermino tj presente en el documento di De esta manera la
representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)
donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento
di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino
Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en
funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una
coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera
a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21
7
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t1 t2 t3 hellip tj hellip tm
d1 w11 w12 w13 hellip w1j hellip w1m
d2 w21 w22 w23 hellip w2i hellip w2m
di wi1 wi2 wi3 hellip wij hellip wim
dn wn1 wn2 wn3 hellip wnj hellip wnm
Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]
Una consulta podraacute representarse de igual misma manera que un documento
asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia
de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)
En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos
tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di
dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj
A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten
wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento
Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos
Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por
[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y
su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten
mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las
palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e
idf representa la frecuencia inversa del documento
8
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre
dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22
[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los
sistemas RI vectoriales
Medida de Similitud Modelo Vectorial
Producto escalar sum=sdot
m
i ii YX1
Coeficiente de Dice sum sum
sum= =
=
+
sdotsdotm
i
m
i ii
m
i ii
YX
YX
1 122
12
Coeficiente del coseno sum sumsum= =
=
sdot
sdotm
i
m
i ii
m
i ii
YX
YX
1 122
1
Coeficiente de Jaccard sumsum sum
sum== =
=
sdotminus+
sdotm
i iim
i
m
i ii
m
i ii
YXYX
YX
11 122
1
Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]
Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno
mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten
como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la
medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de
teacuterminos como
sum sumsum
= =
=
sdot
sdot=
sdotsdot
=m
1j
m
1j2kj
2ij
m
1j kjij
ki
kiki
ww
ww
qdqd)qsim(d rrrr
(21)
Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede
observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una
consulta q respecto a los ejes t1 t2 y t3
9
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
t3
t1
t2
d1 = 2t1+ 3t2 + 5t3
d2 = 3t1 + 7t2 + 1t3
q = 0t1 + 0t2 + 2t3
7
32
5
Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo
vectorial Fuente [Raymond 2005]
El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se
efectuaraacute como sigue
810)400()2594(
52)( 1 =++sdot++
sdot=qdsim
130)400()1499(
12)( 2 =++sdot++
sdot=qdsim
teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)
De los resultados se deduce que el documento d1 es bastante maacutes similar a la
consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que
representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que
representa a d2 y el vector que representa a q tal y como puede verse en la figura 24
10
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
θ2
t3
t1
t2
d1
d2
q
θ1
θ2
t3
t1
t2
d1
d2
q
θ1
Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la
consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]
Al contar con una medida de similitud como la del coseno entre cada documento y
una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los
documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)
sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no
exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente
de similitud
2211 Realimentacioacuten de la Relevancia
Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un
juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta
informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta
A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia
Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de
documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de
este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con
los documentos identificados previamente como relevantes y al mismo tiempo que sea
menos similar a los documentos marcados como poco relevantes por el usuario De esta
manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos
documentos irrelevantes que las consultas previamente formuladas
11
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
La reformulacioacuten de consultas se basa en las dos operaciones complementarias
siguientes
Los teacuterminos que aparecen en los documentos identificados previamente como
relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso
se incrementaraacute por un factor si ya se encontraban en dicho vector
Los teacuterminos que aparecen en los documentos previamente identificados como
no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso
seraacute reducido
Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como
se requiera para mejorar el resultado de la consulta
2212 Agrupacioacuten o ldquoclusteringrdquo de documentos
La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un
documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre
pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre
ellos puede definirse como
sum sumsum
= =
=
sdot
sdot=
sdot
sdot=
m
k
m
k jkik
m
k jkik
ji
jiji
ww
ww
dd
ddddsim
1 122
1)( rr
rr
(22)
Si determinamos la similitud entre pares de documentos se podraacute construir un
agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un
representante de esa clase denominado centroide
Dado un conjunto de m documentos que constituyen una clase p el centroide
Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los
documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p
puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de
documentos en la clase p
m
wc
m
1i ikpk
sum== (23)
12
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
De esta manera al organizar los documentos en clases la buacutesqueda de un
documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los
centroides de cada clase calculando los correspondientes coeficientes de similitud Luego
los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se
compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos
que resulten similares a la consulta
Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada
una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones
entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales
2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos
La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso
de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se
determinan los teacuterminos representativos del contenido de un documento y segundo se
asigna a cada teacutermino un peso o valor que refleje su importancia como representante del
contenido del documento
La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos
que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el
resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa
la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes
profundo
La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la
frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la
importancia de ese teacutermino como representante del contenido del documento Si
ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de
aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y
como enuncia la ley de Zipf en [Zipf 1949]
zordenfrecuencia asympsdot (24)
Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en
el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada
por el suyo correspondiente
13
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino
basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los
siguientes pasos
1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino
tj en cada documento di tfij
2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten
completa sumando sus frecuencias en los n documentos
sum==
n
1i ijj tftf_tot
3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas
que tengan un valor superior a un umbral dado para excluir las palabras
muy frecuentes
4 Del mismo modo se eliminan las palabras poco frecuentes
5 Las palabras restantes con una frecuencia media se utilizaraacuten para
caracterizar los documentos indexados
Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que
establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de
aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de
resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems
relevantes [Vegas 1999]
Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]
14
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir
peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes
puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales
correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto
nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto
y su sustitucioacuten por frecuencias relativas mediante diversas estrategias
La Frecuencia de Documento Inversa Consiste en asumir que la importancia del
teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada
documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se
encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del
teacutermino tj en el documento di como
wij = tfij dfi (25)
El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso
de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de
documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)
para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud
generan valores entre 0 para documentos sin similitud y 1 para documentos
completamente iguales
Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se
puede calcular una similitud media para la coleccioacuten
sumsum= =
=n
1i
n
1jji )dsim(dcsim con i ne j (26)
donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una
medida de la densidad del espacio de documentos el grado en que los documentos se
agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim
tendriacutea el valor c n(n - 1) = 1
15
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para calcular de manera maacutes eficiente la densidad del espacio de documentos se
puede obtener un documento medio d como centroide cuyos teacuterminos se supone que
poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se
definiraacute como
sum=
=n
1iijj tf
n1tf (27)
En este punto se calcularaacute la densidad del espacio de documentos como la suma de
las similitudes de cada documento con respecto al centroide con la siguiente foacutermula
menos costosa que la (26)
sum=
=n
1ii )dd(simcsim (28)
Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los
documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en
este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una
distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos
los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de
documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se
asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio
de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos
documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre
documentos
Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como
simsimdv jj minus= (29)
Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten
ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que
16
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la
lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar
en tres categoriacuteas seguacuten su valor de discriminacioacuten
Buenos discriminadores con un valor dvj positivo que al ser considerados en la
indexacioacuten decrementan la densidad del espacio
Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o
adicioacuten no variacutea la similitud entre documentos
Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los
documentos
Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo
para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de
discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos
con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su
consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede
afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de
teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con
poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en
la indexacioacuten coincidiendo con los de frecuencia intermedia
Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la
frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de
discriminacioacuten
wij = tfij dvj (210)
222 El Modelo Probabiliacutestico
Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de
una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo
sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la
distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de
17
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la
relevancia para automatizar el ajuste del valor de sus paraacutemetros
La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los
teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial
La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en
la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los
documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de
los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada
de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la
coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero
de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que
incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado
de sumar las filas y columnas correspondientes
doc relevantes doc no relevantes
t isin doc r n - r n
t notin doc R - r N ndash n ndash R + r N - n
R N - R N
Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no
relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]
Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck
Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino
basaacutendose en los resultados de una consulta previa
)(
)(log)(1
NnRr
tw = (211)
)(
)(log)(2
RNrn
Rr
tw
minusminus
= (212)
18
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
)(
)(log)(3
nNn
rRr
tw
minus
minus= (213)
)(
)(log)(4
rRnNrnrR
r
tw
+minusminusminusminus= (214)
Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores
destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de
experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)
proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)
23 La Web como sistema de recuperacioacuten de informacioacuten
Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para
intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto
y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la
informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era
evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el
acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han
convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad
de establecer viacutenculos entre los documentos
La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema
suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de
tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente
impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces
permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores
permitiendo asimismo almacenar referencias entre documentosrdquo
Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir
ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular
No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se
1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]
19
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior
crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres
antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se
hiciera apremiante
Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se
precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado
Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten
como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes
para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la
Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos
231 Meacutetodos de recuperacioacuten de informacioacuten en la Web
Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI
tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos
almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de
recuperacioacuten de informacioacuten en la Web
La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la
configuran como un entorno singular y diferente de los claacutesicos Algunas de estas
caracteriacutesticas son las siguientesrdquo [Delgado 2001]
Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes
de 8000 millones de paacuteginas web indizadas por el buscador Google
Heterogeneidad de las publicaciones en cuanto a
o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas
personales y comerciales
o Tipos de datos las paacuteginas web pueden contener texto simple y elementos
multimedia Ademaacutes admiten muchos formatos
o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y
aunque existen unas especificaciones de dicho lenguaje publicadas por el
2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I
20
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que
los navegadores son muy permisivos respecto a la sintaxis de los
documentos Esto dificulta su lectura e indizacioacuten mediante un programa
informaacutetico
o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el
autor o su fecha de publicacioacuten datos muy importantes en las referencias
bibliograacuteficas
o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e
instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad
cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores
tipograacuteficos
o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la
estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de
los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de
texto que cabe en la pantalla sin realizar desplazamientos con documentos
completos con el desarrollo de una idea Un documento puede contener
una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener
resuacutemenes o extractos de varios documentos
Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo
para cualquiera de los millones de internautas
Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como
resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo
de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian
totalmente de contenido manteniendo la misma URL
Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas
como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que
por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor
3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red
21
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles
mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra
ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la
diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su
organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario
determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo
[Delgado 2001]
2311 Herramientas de buacutesqueda en la Web
Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web
ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los
documentos existentes en la globalidad de la Web y permiten localizar informacioacuten
mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que
clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus
secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten
de su estructura hipertextualrdquo [Baeza 1999]
Motores de Buacutesqueda o Buscadores
Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y
localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea
a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea
diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un
rastreo recursivo de los documentos que se referencian [Delgado 2001]
Se puede observar el tamantildeo de la base de datos de los principales buscadores y su
evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6
5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom
22
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003
GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma
Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos
desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea
Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten
mediante un formulario Este puede consistir desde una simple caja donde teclear las
palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un
mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la
posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a
veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML
por tipo de fuente por aacuterea geograacutefica o dominio y por idioma
Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten
criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de
la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas
Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus
procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos
recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad
por lo que podemos encontrarnos con muchos resultados poco uacutetiles
Directorios
Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una
estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden
23
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey
Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary
of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en
algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten
estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten
para los usuarios asiduos de bibliotecas familiarizados con tales esquemas
En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad
formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio
Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada
Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la
estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario
puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten
adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta
Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que
elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar
globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la
estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea
en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos
existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y
clasificacioacuten de los documentos
Multibuscadores
Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta
dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces
recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler
[Selberg 1995] y SavvySearch [Howe 1997]
Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la
posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de
forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias
individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los
que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los
resultados de forma concatenada es decir para cada motor interrogado se presenta una lista
24
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
de los resultados obtenidos y otros que permiten obtener los resultados de forma
integrada eliminando los duplicados e indicando para cada resultado queacute buscador o
buscadores lo han proporcionadordquo
Buacutesquedas aprovechando la estructura hipertextual de la Web
Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo
utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo
mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software
La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de
enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo
podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una
imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para
posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes
importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y
los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para
representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL
[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]
La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de
texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La
principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en
el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute
utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada
para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de
que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la
buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con
ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las
paacuteginas ldquovecinasrdquo
Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica
en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes
heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en
cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados
recuperados [Baeza 1999]
25
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
232 Navegando por la informacioacuten de la Web
Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto
sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la
Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web
Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es
utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros
programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las
principales caracteriacutesticas de estos programas
Navegadores
Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario
recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a
traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea
Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de
viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o
enlaces
La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de
documentos de texto posiblemente con recursos multimedia incrustados Tales
documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que
enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado
con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en
cualquier ordenador conectado a Internet se llama navegacioacuten
El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de
1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en
determinados equipos de trabajo
El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para
distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape
Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad
7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas
26
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los
navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos
antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada
vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape
Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el
proyecto Mozilla
A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla
que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador
maacutes ligero que su hermano mayor
Agregadores de contenidos
Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas
paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo
RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta
manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas
fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para
obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta
Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]
[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una
parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes
para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas
fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar
alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten
aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el
usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de
presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la
figura 28
9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I
27
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom
Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que
proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de
informacioacuten con muacuteltiples opciones de personalizacioacuten
Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles
en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de
2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear
subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan
parcialmente el problema automatizando las consultas y aglutinando todos los contenidos
recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De
esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten
interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o
cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello
en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten
de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema
puntuacutee como interesante en base a sus intereses particulares
11 httpmyfeedstercomloginphp
28
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador
inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus
intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia
de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido
caracteriacutesticas que poseen lenguajes del tipo RSS o Atom
233 Sistemas de recomendacioacuten
En Internet existe una gran cantidad de sitios especializados que ofertan millones de
productos y servicios para su consumo Eacuteste hecho puede resultar un importante
inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones
existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun
sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo
servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a
sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un
proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos
relevantes para cada usuario en concretordquo [Serradilla 2005]
Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno
interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden
albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran
cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer
et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en
tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de
recomendacioacuten y al resto de aspectos del disentildeo
Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en
agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la
vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una
arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]
Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que
recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de
los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los
usuarios se representan como vectores en los que cada componente contendraacute la
valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este
29
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre
amigos
En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un
weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta
empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo
atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera
un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de
encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog
En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar
sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten
persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el
filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web
especializado
Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a
sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada
usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede
suministrar la informacioacuten clasificada individualmente proporcionando un orden
personalizado de conceptos para navegar por la Web El sistema se construye utilizando las
caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN
[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma
jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27
[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep
para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del
usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de
aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica
Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este
sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se
clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del
comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de
informacioacuten recomendado por el sistema
12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad
30
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente
httpwwwittckueduobiwan
24 Resumen
En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de
informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten
Se han expuesto varias propuestas de clasificacioacuten de los modelos para la
recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial
y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la
proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los
documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la
similitud entre documentos y consultas destacando la medida de similitud del coseno
ampliamente utilizada
Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario
para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos
para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre
pares de documentos
31
LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN
Para construir los vectores asociados a los documentos se necesita un proceso de
indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos
teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf
Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en
un documento por frecuencias relativas como la frecuencia de documento inversa o el
valor de discriminacioacuten
El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los
pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los
valores de una tabla de contingencias
Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten
de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar
meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda
de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros
sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando
lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software
Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo
disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la
informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes
para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al
comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones
electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques
Por uacuteltimo se han comentado los agregadores de contenidos que recogen
informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas
paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de
marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades
de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos
deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario
La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de
recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten
para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el
sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos
utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una
especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos
32
Capiacutetulo 3
EVALUACIOacuteN DE LOS SISTEMAS RI
Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada
expresamente a establecer medidas para valorar su efectividad Existen evaluaciones
basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer
conjunto de medidas alternativas que evitan realizar juicios de relevancia
Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema
NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los
sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para
posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la
relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para
comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de
medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de
deslizamiento y la medida de Voiskunskii
31 Relevancia y Pertinencia
Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en
gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten
[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el
teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo
Podemos entender entonces que un documento recuperado se consideraraacute relevante
cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad
de informacioacuten del usuario
Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir
problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse
como relevante o no
El mismo documento puede ser considerado como relevante por una persona e
irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas
33
EVALUACIOacuteN DE LOS SISTEMAS RI
Incluso el mismo documento puede resultar relevante o no a la misma persona en
momentos diferentes [Lancaster 1993]
Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un
documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que
explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel
concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser
explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]
Es posible que los documentos resulten relevantes en alguno de sus apartados con
una materia determinada pero no en el resto de sus contenidos Esta relevancia
parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute
adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua
en lugar de una funcioacuten binaria
Estos problemas condicionan la viabilidad de la relevancia como criterio en la
evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la
ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un
usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener
problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para
decidir si un documento le resulta uacutetil o no
Lancaster considera que la relevancia de un documento estaraacute relacionada con la
satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos
contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra
ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de
relacionar los contenidos de un documento con un tema determinado y pertinencia se
relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de
informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de
documentos recuperados se puede definir como el subconjunto de documentos apropiado
para la necesidad de informacioacuten del usuariordquo [Salton 1983]
Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo
como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces
decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno
proporcionaacutendole informacioacuten para alguacuten propoacutesito
Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta
34
EVALUACIOacuteN DE LOS SISTEMAS RI
manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto
de vista del usuario que realiza la operacioacuten de recuperar informacioacuten
32 Meacutetodos tradicionales de evaluacioacuten de SRI
La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos
puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el
acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o
no del contenido
Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo
de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et
al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten
la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la
exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son
faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que
mediraacuten verdaderamente la efectividad del sistema
Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas
divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el
tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y
la presentacioacuten [Chowdhury 1999]
Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre
el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas
en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del
resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes
Medidas basadas en la Relevancia
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total
de documentos relevantes
Promedio de la
efectividad E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente
[Meadow1993]
35
EVALUACIOacuteN DE LOS SISTEMAS RI
Medidas basadas en el Proceso
Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el
grado de solapamiento con otras relacionadas
Contenido Tipo de documentos de la base de datos temaacutetica de los
documentos frecuencia de actualizacioacuten
Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o
precisa intermediacioacuten
Errores en el establecimiento de la
consulta
Media de errores sintaacutecticos en la escritura de la
buacutesqueda que propician la recuperacioacuten de conjuntos
vaciacuteos y erroacuteneos
Tiempo medio de realizacioacuten de la
buacutesqueda
Tiempo medio de realizacioacuten de una estrategia de
buacutesqueda
Dificultad en la realizacioacuten de la
buacutesqueda
Problemas que los usuarios inexpertos se pueden
encontrar
Nuacutemero de comandos precisos para una
buacutesqueda
Promedio de instrucciones necesarias para realizar una
buacutesqueda
Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten
Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda
Nordm de documentos revisados por el
usuario
Promedio de documentos que los usuarios estaacuten
dispuestos a revisar
Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]
Medidas de resultado
Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos recuperados
Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el
total de documentos relevantes
Promedio de la efectividad
E-P
Promedios de la efectividad en pares de valores de exhaustividad y
precisioacuten
Medidas promedio de la
satisfaccioacuten del usuario
Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante
el resultado de una buacutesqueda
Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]
El conjunto de medidas basadas en la relevancia es el que se considera maacutes
importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de
otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar
36
EVALUACIOacuteN DE LOS SISTEMAS RI
aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las
basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia
introduciendo algunos aspectos diferenciadores
321 Medidas basadas en la relevancia
Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un
conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de
documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro
subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente
este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto
conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan
estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados
en el conjunto formado por la totalidad de documentos
documentos relevantes A
documentos no relevantes notA
documentos recuperados relevantes
A cap B
documentos recuperados no relevantes
notA cap B
Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El
color maacutes oscuro indica el subconjunto B de documentos recuperados
Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de
buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en
donde A representa el conjunto de documentos relevantes B representa el conjunto de
37
EVALUACIOacuteN DE LOS SISTEMAS RI
documentos recuperados notA representa el conjunto de documentos no relevantes y notB
representa el conjunto de documentos no recuperados
RELEVANTES NO RELEVANTES
RECUPERADOS A cap B notA cap B B
NO RECUPERADOS A cap notB notA cap notB notB
A notA
Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]
Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros
autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute
como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de
fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35
Precisioacuten |B|
|BA| cap
Exhaustividad |A|
|BA| cap
Tasa de Fallo |A|
|BA|notcapnot
Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]
La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes
con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes
recuperados entre el total de documentos recuperados
La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes
recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy
difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero
no se podraacute afirmar esa cantidad con total seguridad
La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes
respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes
38
EVALUACIOacuteN DE LOS SISTEMAS RI
importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos
Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la
generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes
sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel
grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto
grado de generalidad tendraacute una mayoriacutea de documentos relevantes
Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola
precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece
en la siguiente expresioacuten
)G1(F)GE()GE(Pminus+sdot
sdot= (31)
en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo
Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad
asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse
en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje
Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de
[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente
relacionados
Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]
39
EVALUACIOacuteN DE LOS SISTEMAS RI
Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean
medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los
usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a
un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la
necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la
cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute
considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si
que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se
buscaraacute una gran exhaustividad
322 Medidas orientadas al usuario
Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la
evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el
conjunto de documentos relevantes para una respuesta es siempre el mismo
independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la
realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son
relevantes y cuales no
Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de
que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la
relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y
[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los
antildeos setenta [Korfhage 1997] Se distinguen tres comunes
Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el
usuario ha recuperado
Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran
previamente desconocidos para el usuario
Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados
examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute
dispuesto a examinar
40
EVALUACIOacuteN DE LOS SISTEMAS RI
Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de
documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad
indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea
Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio
entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de
documentos examinados al intentar encontrar esos documentos relevantes Para ello se
parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y
el sistema permite al usuario localizar todosrdquo [Korfhage 1997]
323 Caacutelculo de la Exhaustividad y la Precisioacuten
Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se
presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute
una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que
enumeraremos a continuacioacuten
Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base
de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los
documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea
escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de
recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo
Otro procedimiento para calcular la exhaustividad consiste en asignar a varias
personas la tarea de analizar los documentos recuperados Este procedimiento resulta
complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el
usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios
de valor y lo que sea interesante para una puede no serlo para la otra
Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la
coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se
estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas
El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague
[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy
bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra
deberiacutea ser muy grande lo que complica el anaacutelisis
41
EVALUACIOacuteN DE LOS SISTEMAS RI
Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra
de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista
que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse
sin problemas a una base de datos global y por ello sugiere que puede hacerse
Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de
una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige
una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que
resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los
valores calculados para la exhaustividad y la precisioacuten son los siguientes
Relevante E P
d1 X 025 1
d2 X 05 1
d3 05 066
d4 X 075 075
d5 075 06
d6 075 05
d7 X 1 057
Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos
Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben
realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un
uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un
documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el
total de documentos relevantes)
Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes
recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son
dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el
nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos
relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir
un graacutefico como el que se muestra en la figura 33
42
EVALUACIOacuteN DE LOS SISTEMAS RI
Pares de valores exhaustividad-precisioacuten
0
01
02
03
04
05
06
07
08
09
1
d1 d2 d3 d4 d5 d6 d7
Val
or
Exhaustividad Precisioacuten
Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la
precisioacuten seguacuten Salton tomados de la tabla 36
Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja
claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la
coleccioacutenrdquo [Salton 1983]
Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de
una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten
corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial
de 1 hasta el de 066
324 Medidas promedio exhaustividad-precisioacuten
Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de
medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la
realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media
aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales
43
EVALUACIOacuteN DE LOS SISTEMAS RI
de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P
seraacute
sum= +
=N
1i ii
i
)NoRecRel(DRecRel(D)RecRel(D)
N1)D(dadExhaustivi (32)
sum= +
=N
1i ii
i
)RecNoRel(DRecRel(D)RecRel(D)
N1(D) Precisioacuten (33)
en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)
seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos
recuperados no relevantes siendo D el conjunto de documentos
A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores
diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez
de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la
figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de
valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten
como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como
aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la
relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica
buacutesqueda
Korfhage propone dos meacutetodos distintos para calcular el promedio de la
exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los
documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada
pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo
recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la
precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir
una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]
El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto
de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se
conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo
44
EVALUACIOacuteN DE LOS SISTEMAS RI
Graacutefico E-P
0
01
02
03
04
05
06
07
08
09
1
11
0 01 02 03 04 05 06 07 08 09 1 11 12
Exhaustividad
Prec
isioacute
n
Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto
con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo
325 Valores sumarios simples
Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la
recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten
media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos
en estudio y segundo porque cuando comparamos dos algoritmos podemos estar
interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto
dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que
podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad
Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de
exhaustividad
3251 Precisioacuten media al observar documentos relevantes
Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden
de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada
aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir
observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media
45
EVALUACIOacuteN DE LOS SISTEMAS RI
seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que
recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto
valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor
pobre de exhaustividad global
3252 La R-Precisioacuten
La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos
ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo
R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si
consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden
entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10
documentos recuperados Esta medida puede utilizarse para observar el comportamiento
de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede
calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple
para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de
diversas consultas puede resultar impreciso
3253 Histogramas de Precisioacuten
Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la
historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el
valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i
respectivamente podemos definir la diferencia entre ambos valores como
RPAB(i) = RPA(i) - RPB(i) (34)
Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual
rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces
indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el
algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden
representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar
raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple
inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35
46
EVALUACIOacuteN DE LOS SISTEMAS RI
-15
-1
-05
0
05
1
15
1 2 3 4 5 6 7 8 9 10
Consultas
R-P
reci
sioacuten
Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza
restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]
33 Otras medidas alternativas
Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la
seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas
ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en
funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las
medidas alternativas deberiacutean cumplir las siguientes condiciones
Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de
forma separada de otros criterios como el coste
Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos
recuperados no debe afectar a estas medidas
Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores
47
EVALUACIOacuteN DE LOS SISTEMAS RI
331 Exhaustividad y precisioacuten normalizadas
Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la
lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los
resultados al usuario formando una secuencia de documentos Incluso en sistemas que no
presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente
Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los
documentos siguientesrdquo [Korfhage 1997]
Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros
documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este
usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no
relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos
no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se
le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician
el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los
documentos al usuario
En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]
[Korfhage 1997]
Primero considera un sistema ideal donde los documentos relevantes se recuperan
antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la
exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe
que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido
devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se
muestra en la figura 36 siguiente
Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de
02 un documento relevante divido entre el total de cinco documentos relevantes de la
coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la
exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa
la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en
las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al
presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la
secuencia
48
EVALUACIOacuteN DE LOS SISTEMAS RI
Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor
buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]
Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal
representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la
exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de
dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es
el nuacutemero total de documentos
Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el
resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda
ideal y la peor buacutesquedardquo [Rijsbergen 1979]
332 Ratio de deslizamiento
Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos
recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal
donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se
permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la
pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma
de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos
de los documentos que hubiera devuelto el sistema ideal
En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento
por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada
fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor
de uno
49
EVALUACIOacuteN DE LOS SISTEMAS RI
A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos
que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25
82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la
columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos
documentos habriacutean sido recuperados y presentados en el orden descendente de pesos
formando la columna ldquoΣ pesos idealesrdquo de dicha tabla
La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada
ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por
ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82
Ratio de Deslizamiento
N sum pesos reales sum pesos ideales Deslizamiento
1 70 82 085
2 120 152 079
3 120 204 059
4 145 254 057
5 227 299 076
6 272 336 081
7 309 367 084
8 320 392 082
9 372 403 092
10 403 403 1
Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de
pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]
333 Medida de Voiskunskii
Este autor considera que los criterios para comparar los resultados de una buacutesqueda
ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda
y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el
establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]
Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko
I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos
medidas no cumplen totalmente los criterios comentados fundamentalmente porque se
50
EVALUACIOacuteN DE LOS SISTEMAS RI
infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra
cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a
conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants
Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de
los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con
los resultados siguientes
a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son
b Se recuperan 67 documentos siendo pertinentes 40 de ellos
c Se recupera un solo documento que resulta ser pertinente
Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores
para la medida I1
Buacutesqueda E P I1
a 05 05 1
b 04 0597 0997
c 001 1 101
Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]
Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener
el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute
considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se
le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute
cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos
independientemente del valor matemaacutetico que nos devuelva la foacutermula
Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para
resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de
documentos relevantes recuperados y el nuacutemero de documentos que conforman el
resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del
producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta
medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39
51
EVALUACIOacuteN DE LOS SISTEMAS RI
En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto
para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la
mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior
En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir
en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo
Buacutesqueda E P I2
a 05 05 025
b 04 0597 02388
c 001 1 001
Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]
34 Resumen
En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los
sistemas de Recuperacioacuten de Informacioacuten
Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante
un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten
con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos
resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito
Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de
informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten
Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas
RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la
precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de
documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la
precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el
tema
En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar
respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se
proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad
relativa
52
EVALUACIOacuteN DE LOS SISTEMAS RI
Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque
seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la
exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos
para calcular la exhaustividad como los manuales resultan complejos y costosos En otros
casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar
solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten
Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen
los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en
cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de
precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos
considerados
Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten
normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de
clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas
de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el
cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que
conforman el resultado
53
EVALUACIOacuteN DE LOS SISTEMAS RI
54
Capiacutetulo 4
PERFILES DE USUARIO
En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de
los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten
estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a
los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus
necesidades reales de informacioacuten
La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten
NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por
ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de
creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias
maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de
realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a
sus intereses y circunstancias
41 iquestQueacute es un Perfil
Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear
los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que
describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un
ordenador y puede utilizarse como representante del objeto en las tareas computacionales
Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten
la gestioacuten de conocimiento y el anaacutelisis de datos
Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del
comportamiento de un individuo hasta el perfil del funcionamiento de un programa de
ordenador En principio se puede hacer un perfil de todo y por consiguiente las
caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado
Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de
los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas
55
PERFILES DE USUARIO
especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos
antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes
El perfil de usuario va a contener informacioacuten modelada sobre el usuario
representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema
incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute
necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto
refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de
creacioacuten y gestioacuten de los perfiles de usuario
42 Meacutetodos de creacioacuten de perfiles
Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o
manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo
impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente
En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario
escribieacutendolos en su perfil de usuario o respondiendo a formularios
Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a
partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo
a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra
un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de
informacioacuten
Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se
modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de
Inteligencia Artificial para dichas tareas
Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente
para producir perfiles maacutes precisos y comprensibles
56
PERFILES DE USUARIO
Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo
colaborativo de creacioacuten de perfiles Fuente [Rui 2003]
43 Meacutetodos de adquisicioacuten de los datos del usuario
En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de
datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten
activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de
adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos
para la clasificacioacuten del usuario
431 Informacioacuten Expliacutecita
La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el
propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener
mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas
iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo
1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el
usuario a un subgrupo de usuarios predefinido
57
PERFILES DE USUARIO
Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para
autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos
sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios
para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de
cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes
orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de
entretenimiento y pueden ofrecer incentivos para que el usuario las responda
Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta
los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea
inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta
paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo
inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que
responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa
de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo
[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]
432 Reglas de Adquisicioacuten
Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se
ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario
En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones
observadas del usuario o a una interpretacioacuten de su comportamiento
Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o
independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo
encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X
entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde
se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo
Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil
implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de
describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y
otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde
se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en
tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la
aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas
58
PERFILES DE USUARIO
variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que
seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten
especiacuteficas
433 Reconocimiento del Plan
Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan
realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una
base de conocimiento de tareas para modelar las posibles acciones del usuario y las
relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos
asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre
todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las
teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos
como en [Lesh 1995]
El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que
tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se
muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en
una aplicacioacuten de gestor de mensajes
434 Estereotipos
En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre
ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario
pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos
semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de
circunstancias [Rich 1979]
En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la
informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra
un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario
Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de
activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las
presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el
usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo
[Ambrosini et al 1997]
59
PERFILES DE USUARIO
Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al
1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro
importante que determina la efectividad de este meacutetodo va a ser la calidad de los
estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto
atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado
para cada estereotipo
435 Adquisicioacuten de Datos de Utilizacioacuten
En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo
para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que
registran las acciones del usuario para obtener informacioacuten de su comportamiento son
Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa
comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la
aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de
su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia
de navegacioacuten
Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales
[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes
aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que
los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las
acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el
comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y
para realizar automaacuteticamente acciones por el usuario
Tambieacuten se han construido perfiles de usuario orientados a su comportamiento
mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de
[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten
para modelar al usuario en sistemas educacionales
44 Representacioacuten del Perfil de Usuario
Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese
modelo el perfil de usuario para que pueda ser utilizado por otros componentes del
sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como
60
PERFILES DE USUARIO
pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los
contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten
los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales
Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y
las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de
razonamiento deductivo inductivo y analoacutegico
441 Razonamiento Deductivo
La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a
lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados
en la loacutegica y el razonamiento con incertidumbre
4411 Representacioacuten e Inferencia Loacutegica
El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra
bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo
lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas
sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del
tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del
concepto en la base de conocimiento del sistema
Para representar el conocimiento del sistema sobre el dominio y el conocimiento
del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de
conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de
proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la
incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a
meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten
de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]
4412 Representacioacuten y Razonamiento con Incertidumbre
Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden
utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo
es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas
61
PERFILES DE USUARIO
Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar
conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de
conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los
usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza
recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente
de ventas [Popp y Lodel 1996]
442 Razonamiento Inductivo Aprendizaje
En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se
monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales
basadas en las observaciones
En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier
tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten
afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica
especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten
personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar
filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario
partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de
mayor o menor intereacutes para el usuario basaacutendose en su perfil
Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En
Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico
para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de
documentos
En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario
se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las
palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas
adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic
1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones
claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los
perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que
represente a un documento cada peso podraacute expresar la importancia de la palabra en tal
documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la
importancia de la palabra para el usuario
62
PERFILES DE USUARIO
443 Razonamiento por Analogiacutea
El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios
En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de
usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo
de perfiles de usuario
4431 Filtrado Basado en Grupos
En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos
problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido
puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar
en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las
caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen
sistemas que buscan los usuarios que muestran un comportamiento interactivo similar
Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en
intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el
conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en
grupos [Alspector et al 1997]
Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula
las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las
clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se
utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker
y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus
marcadores de paacuteginas o ldquobookmarksrdquo
El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar
y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En
[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este
tipo
1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica
63
PERFILES DE USUARIO
4432 Agrupacioacuten de Perfiles de Usuario
Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute
considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de
usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios
El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos
utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un
algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes
formando perfiles de grupos de usuarios
[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de
aprendizaje para determinar el contenido de los estereotipos y para construir comunidades
de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45
[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se
corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo
una categoriacutea de noticias
El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende
expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los
documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del
usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su
perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho
perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las
caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema
realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que
considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el
usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no
visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores
45 Realimentacioacuten del usuario
Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una
secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario
comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten
La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La
realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema
64
PERFILES DE USUARIO
monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En
el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita
seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina
que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es
que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace
creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo
invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir
o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo
Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos
histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el
usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por
ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario
para ir confeccionando automaacuteticamente su perfil
Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al
usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con
respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten
que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra
parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable
puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no
es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en
dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en
ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede
suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener
modelos distintos uno del otro [Rui 2003]
Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la
realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten
positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa
puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute
auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa
Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de
utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se
requiera esfuerzo alguno por parte de eacuteste
65
PERFILES DE USUARIO
46 Agentes Software y creacioacuten de perfiles
Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en
entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese
entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo
Los agentes se han utilizado ampliamente en distintos campos comerciales
industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de
forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y
presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la
colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos
agentes se basaraacuten en alguacuten modo de conocimiento del usuario
Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software
convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su
ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten
capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no
impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un
sistema
La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute
principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes
que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes
podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de
inteligencia artificial
Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]
Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de
alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan
siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para
la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso
asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica
en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona
las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario
que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del
usuario y actualizar entonces su perfil
66
PERFILES DE USUARIO
47 Modelos Estadiacutesticos
Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis
estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute
paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten
para elaborar su perfil correspondiente
Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil
para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de
eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil
de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en
paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el
comportamiento en accesos del usuario y un grafo de accesos a la Web donde se
mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que
serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de
usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de
buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario
obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el
contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un
conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas
para evaluar el intereacutes de una paacutegina para un usuario
Las presunciones empiacutericas consideradas en [Chan 1999] son
1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor
intereacutes
2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes
3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso
indicaraacute que las paacuteginas son de intereacutes
4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa
paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa
paacutegina
En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio
de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de
enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina
puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones
67
PERFILES DE USUARIO
se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo
superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten
Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado
CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para
construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de
usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que
eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un
servidor web denominado JobFinder donde se graban los registros de actividad de los
usuarios
48 Razonamiento Basado en Reglas
Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas
pasados efectuando asociaciones a lo largo de relaciones generales para encontrar
soluciones al problema presente
Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose
en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio
existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario
se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos
partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y
la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema
dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino
basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de
usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos
enlaces que de otra manera estariacutean presentes en la paacutegina
El principal problema de estos sistemas seraacute la dificultad para describir y definir las
reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas
49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil
de usuario automaacutetico
Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas
que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo
68
PERFILES DE USUARIO
sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten
por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente
sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su
objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces
ordenados de mayor a menor puntuacioacuten seguacuten su perfil
Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo
utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por
el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir
elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web
recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su
frecuencia
Se distinguen dos aspectos de las preferencias del usuario las preferencias
persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de
usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones
En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario
se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar
procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se
representaraacute mediante un vector que se construye considerando ambos tipos de
preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para
calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea
anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la
foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1
Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos
teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o
de la frecuencia del teacutermino
La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia
del coseno entre ambos
wPwPw)sim(P rrr
sdotsdot
=r
(41)
De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo
con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de
similitud
69
PERFILES DE USUARIO
410 Resumen
En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos
para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten
de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se
incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros
casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones
adquiriendo sus datos de utilizacioacuten
Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una
representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del
sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e
inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos
numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o
aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el
aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios
En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los
documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen
dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el
meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario
Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos
permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza
el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten
expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e
implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en
proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten
Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes
software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda
y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma
automaacutetica recurriendo a teacutecnicas de inteligencia artificial
Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos
anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque
analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar
soluciones al problema presente sistemas de razonamiento basado en reglas
70
PERFILES DE USUARIO
Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite
realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico
elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo
vectorial y valores de similitud basados en la medida del coseno para clasificar los
resultados de una buacutesqueda
71
PERFILES DE USUARIO
72
Capiacutetulo 5
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE
CONTENIDOS BASADO EN PERFILES
En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su
evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y
diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario
En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone
un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un
perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al
usuario seguacuten su puntuacioacuten
El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten
en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario
utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del
perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute
coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]
Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto
aplicaacutendolo a la elaboracioacuten de un agregador inteligente
51 Introduccioacuten
El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un
mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten
la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado
automaacuteticamente
Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir
su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten
que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute
compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de
dicho contenido
73
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten
seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten
disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de
las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del
sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden
darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva
informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada
uacutenicamente por el inicio y fin de la ejecucioacuten del sistema
En la figura 51 se muestra una visioacuten general de este sistema propuesto donde
puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y
que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma
de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario
Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de
retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil
Usuario
Visualizar y seleccionar noticias
World Wide Web
Perfil de Usuario
Agregador de noticias
Puntuar la informacioacuten recuperada
Actualizar perfil
Proporcionar noticias relevantes
Seleccioacuten de noticias
Figura 51 Vista general del sistema NectaRSS propuesto
52 Construccioacuten automaacutetica de un perfil de usuario basado en su
historia de navegacioacuten
En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras
palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o
evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su
historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo
74
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas
sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se
recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa
informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten
Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar
diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo
de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen
por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el
perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las
preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario
construido con la historia de navegacioacuten por titulares durante S sesiones
Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis
Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el
usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En
primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como
sigue
(51) )ww(ww ht
ht
ht
hm21
=
donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino
Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define
como sigue
ht k
w
sum =
= m
1s sh
khht
tftf
wk
(52)
donde tfhk es la frecuencia del teacutermino tk en cada titular h
Entonces definimos a Ps como
(53) )psps(psPs21 ttts =
75
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la
sesioacuten j y tk denota cada teacutermino
Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps
sum=
=j
kk
S
1h
ht
jt w
S1ps (54)
Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente
seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la
ecuacioacuten (54) ktps
El perfil de usuario P se denotaraacute tambieacuten mediante un vector
(55) )pp(pPn21 ttt=
donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino
Cada elemento se define kt
p
sum sum= =
=T
1j
S
1h
ht
jt
j
kkw
S1p (56)
siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento
Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al
teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j
Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguientes expresiones
76
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Pj+1 = a Pj + b Psj para forall sub Psj (57) kt
p
Pj+1= Pj para forall nsub Psj (58) kt
p
donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual
se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a
Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como
se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras
cada sesioacuten
hllog2
tt ep)fol(pkk
minussdot= (59)
donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]
En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea
determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula
(510) siguiente
ktp
ktp
Pj+1 = fol( Pj) para forall nsub Psj (510) kt
p
521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten
del perfil de usuario
Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute
presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la
posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica
del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten
asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al
funcionamiento del sistema propuesto
Utilizando el modelo vectorial en este caso para los titulares que posean un
resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los
77
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a
partir de los teacuterminos que aparezcan en el resumen asociado
Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen
asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr
con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar
denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)
como sigue
(511) )ww(ww hrt
hrt
hrt
hrv21
=
donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk
denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento
de whr se define como sigue hrtk
w
sum =
= v
1s shr
khrhrt
tftf
wk
(512)
donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h
Entonces definimos a Pr como
(513) )prpr(prPv21 tttr =
y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr
sum=
=j
kk
Sr
1h
hrt
jt w
Sr1pr (514)
78
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj
seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se
muestra en la ecuacioacuten (514) kt
pr
Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias
en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior
Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las
siguiente foacutermula
Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt
p
donde a y b son constantes que satisfacen a + b = 1
53 Caacutelculo de la puntuacioacuten de los titulares
Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente
vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el
titular h y tk denota cada teacutermino con el perfil de usuario donde n es el
nuacutemero de teacuterminos distintos y tk denota cada teacutermino
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular
h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la
seccioacuten 221 de esta tesis y propuesta por [Salton 1989]
hw
h
hh
wPwP)wsim(Psdotsdot
= =sum sumsum= =
=
sdot
sdotm
1k2m
1kht
2t
m
1khtt
kk
kk
(w(p
wp
)) (516)
El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para
cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya
puntuacioacuten sea mayor
79
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular
con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez
se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de
olvido
Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes
apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo
Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo
t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo
Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute
wh= ( = 033 = 033 = 033) 1t
ps 2tps3t
ps
Ahora suponemos que se tienen los siguientes valores en el perfil de usuario
correspondientes a los teacuterminos del titular h
P= ( = 003 = 001 = 009) 1t
p2t
p3tp
La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la
medida del coseno (516) se calcularaacute de la siguiente manera
)wsim(P h =)()(
)()()(222222 090010030330330330
090330010330030330++sdot++
sdot+sdot+sdot = 079
Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil
de usuario P en este ejemplo es de 079
80
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
531 Puntuacioacuten alternativa de los titulares
Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la
medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por
[Salton 1989]
Asiacute dado el correspondiente vector caracteriacutestica del titular h
donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario
donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino
entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del
titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard
)ww(ww ht
ht
ht
hm21
=
)pp(pPn21 ttt=
hw
=)wsim(P h
sum sumsumsum
= ==
=
sdotminussdot
sdotm
1k
m
1khtt
2m
1kht
2t
m
1khtt
kkkk
kk
wp)(w)(p
wp (517)
El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del
titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar
para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten
54 Descripcioacuten general del sistema NectaRSS
Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52
y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone
un sistema de recomendacioacuten de noticias recuperadas de la Web
Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador
inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2
De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores
tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo
implementa puede encontrarse en el Anexo II
1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I
81
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de
usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia
Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten
El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella
informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin
esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando
entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute
confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada
sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten
(55) mediante la foacutermula (57)
Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula
(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten
El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la
seccioacuten 53 utilizando la foacutermula (516)
Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que
aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula
(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps
como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten
(513)
541 Caracteriacutesticas singulares del sistema
NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental
del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten
dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin
embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va
elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la
informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin
distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de
usuario resulta maacutes sencillo
Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la
informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia
reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)
82
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten
2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al
comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las
similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para
conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias
a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente
Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias
utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda
informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada
seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente
ninguna aplicacioacuten similar con estas funciones
55 Resumen
En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten
de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a
los usuarios en la tarea de encontrar la informacioacuten que demandan
NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de
usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal
usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el
sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada
Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea
un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar
cada sesioacuten con el sistema
Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para
ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten
Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial
propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada
titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino
Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su
correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del
coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton
1989]
83
NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES
84
Capiacutetulo 6
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA
PROPUESTO
En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar
experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza
exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea
seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha
experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para
determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el
sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las
palabras y se describen los experimentos efectuados
En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del
sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la
Correlacioacuten entre titulares y la R-Precisioacuten
61 Objetivo general del sistema y esquema de su experimentacioacuten
El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el
filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base
a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones
satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y
faacutecilmente la informacioacuten que demande
Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas
1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus
elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de
informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5
2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64
de este capiacutetulo incluyendo
85
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de
puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste
selecciona
minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas
informativas del sistema
minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para
cada sesioacuten con el sistema
3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el
funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos
en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten
632 Los resultados de estos experimentos y los paraacutemetros seleccionados se
expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente
4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a
las distintas medidas calculadas y prueba de un sistema alternativo de
puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los
experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos
resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente
62 Metodologiacutea seguida
Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se
procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio
formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de
noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo
II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes
La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin
embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes
En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en
una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar
usuarios para su prueba
86
RESULTADOS DE LOS EXPERIMENTOS
Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y
se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en
formato XML1 para su posterior anaacutelisis
El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de
treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica
Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa
fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido
como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello
que todos los valores que se ofrecen como resultado de los experimentos han sido
suficientemente contrastados por este meacutetodo
Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la
base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten
asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo
selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61
ltSESIOacuteNgt
ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt
ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt
ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt
ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt
ltTitular_sesioacutengt
ltTiacutetulogtMadrid 2012ltTiacutetulogt
ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt
ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt
ltFechagt2005-05-17T091249+0100ltFechagt
ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt
ltOrden_eleccioacutengt2ltOrden_eleccioacutengt
ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt
ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt
ltErrorgt06355515025975752ltErrorgt
ltTitular_sesioacutengt
ltSESIOacuteNgt
Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La
ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden
en que el usuario lo ha elegido
1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas
87
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Antes de las sesiones de prueba en cada uno de los casos considerados en los
distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin
de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan
los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener
conclusiones
63 Estrategias de experimentacioacuten
Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la
primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para
comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los
resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil
de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones
Estas fases se describen maacutes detalladamente a continuacioacuten
Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute
se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos
titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el
intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas
proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)
Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada
experimento se compararaacuten los resultados para comprobar si existen variaciones
significativas y cuaacutel valor de entre los experimentados arroja mejores resultados
En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en
las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el
sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus
correspondientes preferencias temaacuteticas como cualquier otro usuario real Una
descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en
la seccioacuten 632
Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros
determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos
usuarios reales contrastando los resultados para determinar su validez En esta fase
se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste
iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que
permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar
88
RESULTADOS DE LOS EXPERIMENTOS
desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el
sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten
se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes
detallada de los usuarios experimentales y de los experimentos correspondientes a
esta fase se encuentra en la seccioacuten 632
631 Tratamiento de las palabras
Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se
analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la
descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una
a una todas las palabras
En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o
es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar
de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso
muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]
y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a
minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es
una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o
modificando sus valores de perfil si ya estaacute contenida
El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su
inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten
se podraacute forzar al sistema para que excluya las palabras que se deseen
Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del
analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten
comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado
por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por
52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la
herramienta ispell [DATSI 2005]
2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm
89
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
632 Descripcioacuten de los experimentos
A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema
Los cuatro primeros se corresponden con la primera fase destinada a probar diversos
paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento
del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el
uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas
distintas de puntuar la informacioacuten
Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada
sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el
Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea
diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea
Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la
seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el
primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto
de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de
los mismos titulares de noticias
Experimento 1 Con Resumen ndash Sin resumen (CRS)
En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la
consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de
usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee (ESIN)
Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)
Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se
probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados
obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores
experimentados resulta maacutes beneficioso para el sistema Para este experimento el
90
RESULTADOS DE LOS EXPERIMENTOS
sistema estaraacute configurado con la mejor de las dos estrategias descritas en el
experimento CRS anterior
Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y
33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal
y como puede observarse en la figura 62
Representacioacuten del factor de olvido para distintos valores del intervalo de vida
07
075
08
085
09
095
1
105
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Intervalo de vida hl
Valo
r
Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo
de vida hl
Experimento 3 Importancia Relativa de los Perfiles (IRP)
En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al
finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el
perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con
distintas importancias relativas para dichos perfiles modificando sus paraacutemetros
multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del
experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones
consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema
Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)
(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y
(a=90 b=10) abarcando uniformemente el intervalo [0 100]
91
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)
Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento
del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar
el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si
eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS
pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con
ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento
Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten
exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los
resultados comparaacutendolos para determinar si se encuentran diferencias significativas
Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)
Considerando los resultados obtenidos en los cuatro experimentos anteriores se
configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten
de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios
reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en
cada una de las sesiones Al final del experimento se compararaacuten los resultados que se
hayan obtenido para cada uno de ellos para determinar si el sistema posee un
funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema
para que presente al usuario una lista aleatoria de titulares de entre los recuperados en
cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-
experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute
ldquoAZARrdquo
En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14
titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar
simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento
vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la
lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de
entre los recuperados en la sesioacuten
Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales
debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por
el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes
92
RESULTADOS DE LOS EXPERIMENTOS
proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar
estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los
titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera
sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos
los titulares recuperados
Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones
baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada
experimento
USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten
Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5
Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en
el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto
como medida alternativa en la seccioacuten 531 del capiacutetulo anterior
En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las
empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la
informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos
casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados
por puntuacioacuten para que escoja los que sean de su intereacutes
93
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
64 Medidas para la evaluacioacuten experimental del sistema
En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del
sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las
preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por
el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento
determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su
funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores
recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la
informacioacuten que maacutes le interesa
641 Tasas formadas por relaciones entre las variables observables
Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario
almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute
en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de
intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas
medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el
sistema
Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en
una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en
dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor
que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares
con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la
figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos
conjuntos como variables dependientes del sistema
El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de
las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas
para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para
ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el
apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares
que se le ofrecen al usuario o card(T)
En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los
que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el
94
RESULTADOS DE LOS EXPERIMENTOS
perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares
destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario
seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))
titulares T
titulares elegidos E(T)
titulares elegidos
destacados E(T) cap D(T)
titulares destacados D(T)
Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la
seccioacuten 641
En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por
tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra
variable a considerar siendo su valor el de card(E(T))
Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir
un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal
cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se
corresponderaacute con card(E(T) cap D(T))
Si relacionamos entre si estas variables podremos definir varias tasas de valor simple
que nos ayuden a evaluar el sistema
Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten
respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como
95
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
T)T(EC P = (61)
Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la
sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares
Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada
mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como
T)T(DCR = (62)
Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de
titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al
total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones
iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del
usuario
Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con
puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT
definida como
T
)T(D)T(ECTcap
= (63)
Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con
puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los
titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede
con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa
En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los
conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del
funcionamiento del sistema
96
RESULTADOS DE LOS EXPERIMENTOS
titulares elegidos titulares
destacados
titulares elegidos
destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila
642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima
Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una
puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas
(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares
se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones
eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el
sistema
En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares
ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible
calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares
escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo
que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los
N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten
determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos
por el usuario y el valor )T(p maacuteximo se define la tasa CD como
)T(p))T(E(pC
maxD = (66)
en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados
a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al
nuacutemero de titulares escogidos por el usuario
97
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error
Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en
[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el
conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de
noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten
asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de
titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto
error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi
siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las
dos medidas siguientes
Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del
sistema Se calcularaacute seguacuten la foacutermula
N
eE
N
iisum
== 1 (67)
Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento
del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el
algoritmo Se definiraacute como
( )N
EEN
isum=
minus= 1
2
σ (68)
644 La Correlacioacuten entre titulares
En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a
ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera
anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los
titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al
seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un
subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN
representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la
siguiente medida
98
RESULTADOS DE LOS EXPERIMENTOS
Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los
titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente
escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto
mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute
el algoritmo [Hill 1995] Se definiraacute
[ ]
fc
N
iii ffcc
Nr σσ sdot
minussdotminussum= =1
)()(1
(69)
en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la
expresioacuten representa la covarianza
645 La R-Precisioacuten
Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se
generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de
puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para
ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de
titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario
entre los ofrecidos por el sistema
Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis
primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para
el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el
comportamiento del algoritmo para cada sesioacuten i del experimento
El valor de la R-Precisioacuten podraacute definirse en este caso como
))T(E(card))T(E(posR)i(RP
i
i= (610)
en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros
titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al
nuacutemero total de titulares elegidos en dicha sesioacuten
99
EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO
65 Resumen
Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para
verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la
presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este
sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del
sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que
realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten
Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en
el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se
seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se
realizaron diversos experimentos analizando al final de cada uno de ellos los resultados
obtenidos para valorar el funcionamiento del sistema propuesto
En la experimentacioacuten se distinguen dos fases principales la primera destinada a
determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar
el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los
cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el
comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el
mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la
informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento
adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando
las palabras vaciacuteas y contabilizando las que se vayan considerando
Despueacutes de describir los experimentos se proponen diversas tasas y medidas para
cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de
titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras
relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su
similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error
Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es
la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el
comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6
mediante un valor simple
100
Capiacutetulo 7
RESULTADOS DE LOS EXPERIMENTOS
En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten
632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos
obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que
se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto
comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las
medidas que evaluacutean su funcionamiento
En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el
experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes
opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se
presentan los resultados del experimento DIV en el que se prueba el uso de un factor de
olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el
experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil
acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS
pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos
En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU
analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el
experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten
mediante la medida del coseno y mediante la medida de Jaccard
71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)
Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del
sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para
la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras
se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y
los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN
101
RESULTADOS DE LOS EXPERIMENTOS
Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y
que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que
se basa en el valor de puntuacioacuten que el sistema asigna a los titulares
Para comparar los resultados de ambos sub-experimentos en la tabla 72 se
muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones
experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten
estaacutendar en los graacuteficos de las figuras 71 72 y 73
titulares elegidos titulares destacados
titulares elegidos destacados
titulares Tasa CP Tasa CR Tasa CT
Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares
considerados La relacioacuten se establece dividiendo la columna por la fila
Experimento CRS ndash Valores medios de las tasas calculadas Caso
CP CR CT CD
ECON 02312 06292 01572 05646
ESIN 02312 04248 01269 05192
Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30
sesiones experimentales
En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos
casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares
por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba
que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la
figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a
los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no
se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en
el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el
perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con
alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras
del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en
el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72
102
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
09Va
lor
Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1
000
005
010
015
020
025
Valo
r
ECON ESIN
Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los
resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes
su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN
103
RESULTADOS DE LOS EXPERIMENTOS
Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso
ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las
anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten
media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media
maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y
como se define en la foacutermula (64)
Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1
ECON ESIN00
01
02
03
04
05
06
07
08
Valo
r
Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza
los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor
medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor
Para comprobar si existen diferencias significativas entre los dos tratamientos del
perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos
obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba
estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su
normalidad condicioacuten indispensable para aplicar el test de Student
Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de
00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera
104
RESULTADOS DE LOS EXPERIMENTOS
muy significativo Por lo tanto se considera que si existen diferencias significativas entre el
caso ECON y el caso ESIN seguacuten la tasa CD
Paraacutemetros ECON ESIN
Media 05646 05192
Muestra 30 30
Desviacioacuten Estaacutendar 01740 01934
P del test de Normalidad 00572 gt010
Test t-Student (2 colas) 00025
Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN
destacando el valor de la prueba t -Student para la tasa CD
Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la
praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados
hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos
titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con
mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender
directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el
sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y
CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no
ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan
al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede
esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de
significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea
de intereacutes
En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de
titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las
noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema
a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una
noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto
que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil
105
RESULTADOS DE LOS EXPERIMENTOS
Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento
del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras
del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente
sus resultados
Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el
perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias
estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor
cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la
mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de
titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a
su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que
cero
Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON
respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el
funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean
diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor
estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las
noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su
historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes
experimentos
72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)
En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido
foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron
30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y
33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como
puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el
sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol
Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas
consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que
en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de
hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del
experimento 1 anterior
106
RESULTADOS DE LOS EXPERIMENTOS
Los valores medios obtenidos para la tasa CD en los distintos casos considerados
despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la
figura 74 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 2 ndash Valor medio de la tasa CD
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol
04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652
Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones
experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido
SINfol
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV
hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02
03
04
05
06
07
08
Valo
r
Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida
hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan
valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol
Se observa que los resultados obtenidos por la tasa CD para los distintos valores del
intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha
calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la
obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para
107
RESULTADOS DE LOS EXPERIMENTOS
comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series
de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada
uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para
aplicar la prueba t- Student
Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de
06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera
no significativo Por lo tanto se considera que no existen diferencias significativas entre la
consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten
de tal factor de olvido seguacuten la tasa CD
Paraacutemetros Factor de olvido
con hl=7
Sin factor de
olvido
Media 05681 05652
Muestra 30 30
Desviacioacuten Estaacutendar 01500 01387
P del test de Normalidad gt010 gt010
Test t-Student (2 colas) 06292
Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con
intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la
prueba t -Student para la tasa CD
Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de
diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido
con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema
pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten
se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es
por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el
proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute
durante los siguientes experimentos
108
RESULTADOS DE LOS EXPERIMENTOS
73 Experimento 3 Importancia Relativa de los Perfiles (IRP)
Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el
rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil
de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)
Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro
a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil
elaborado por la sesioacuten en curso
Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros
durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)
(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)
Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la
tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea
de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de
titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el
tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los
distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la
tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar
Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)
(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)
06186 06240 06283 06306 06319 06315 06286 06223 06123
Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones
experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b
En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los
casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)
La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene
ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario
despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media
para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten
auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si
existen diferencias significativas entre las distintas series de valores
109
RESULTADOS DE LOS EXPERIMENTOS
Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos
paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten
Ps y el perfil acumulado P tal y como se define en la foacutermula (515)
Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP
(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040
045
050
055
060
065
070
075
080
Valo
r
Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de
usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par
(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media
74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)
Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta
al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la
elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el
experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las
diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados
Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten
los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten
50 para los paraacutemetros a y b de la foacutermula (515)
Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones
experimentales con el sistema considerando el caso que denotaremos por ECON2
110
RESULTADOS DE LOS EXPERIMENTOS
cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se
utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se
muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha
observado en el experimento 1
A diferencia de los experimentos anteriores donde se obtuvieron valores medios en
este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones
para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados
obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados
middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y
ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos
cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten
Experimento 4 - Resultados para la tasa CD
Lineal (ECON2) y = 00004x + 06538
Lineal (ESIN2) y = -00027x + 06788
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)
Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los
resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de
tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable
Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes
a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la
serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la
111
RESULTADOS DE LOS EXPERIMENTOS
pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo
largo de las sesiones para este segundo caso
Estos resultados nos confirman las conclusiones obtenidas para el experimento 1
donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las
noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos
de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada
sesioacuten con el sistema
75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)
En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes
usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los
resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su
adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos
usuarios
Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se
configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que
presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por
puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos
titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar
desplazamiento vertical alguno
Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30
sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el
sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el
perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del
capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras
30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes
entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-
experimento al no existir perfil de usuario alguno se ofrecen todos los titulares
Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen
en las tablas y graacuteficos de las secciones siguientes
112
RESULTADOS DE LOS EXPERIMENTOS
751 Comparacioacuten de Tasas
En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la
sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se
representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas
en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se
representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN
a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de
titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en
el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la
sesioacuten
La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el
caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como
destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute
los mismos resultados que la tasa CT para el caso ldquoORDENrdquo
Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357
CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071
CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927
CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022
Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en
los casos ldquoORDENrdquo y ldquoAZARrdquo
Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267
CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062
CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845
CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298
Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones
experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo
113
RESULTADOS DE LOS EXPERIMENTOS
Observando el graacutefico de la figura 77 donde se representan los valores obtenidos
por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78
donde se representan los valores medios calculados para dicha tasa en las 30 sesiones
experimentales vemos que para todos los usuarios se han obtenido mayores valores para el
caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso
ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso
ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir
mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el
intereacutes del usuario
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de
0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo
Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30
sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo
Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el
caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Observando el graacutefico de la figura 79 donde se representan los valores obtenidos
por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710
donde se representan los valores medios calculados para dicha tasa vemos que para todos
los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los
titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al
azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el
usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor
cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del
usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute
podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados
seguacuten el intereacutes del usuario
114
RESULTADOS DE LOS EXPERIMENTOS
Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios
Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios
21 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
USUARIOS
Valo
r
ORDEN AZAR
Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
115
RESULTADOS DE LOS EXPERIMENTOS
A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los
titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los
titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el
usuario escogiese todos los titulares recomendados por el sistema De esta manera se
obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos
de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema
Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso
ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto
para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales
El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de
0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata
por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo
respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos
los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376
en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un
220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo
Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios
00
02
04
06
08
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
ORDEN AZAR
Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se
ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En
dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios
116
RESULTADOS DE LOS EXPERIMENTOS
Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
02
04
06
08
10
12
USUARIOS
Valo
r
ORDEN AZAR
Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales
cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso
ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo
752 Error Absoluto Medio y Coeficiente de Correlacioacuten
En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se
presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso
ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes
medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y
porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece
En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten
experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula
(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se
representan estos resultados
En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten
experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en
la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente
117
RESULTADOS DE LOS EXPERIMENTOS
Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051
σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019
r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999
Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten
entre titulares en la sesioacuten experimental 30 por 15 usuarios
Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000
005
010
015
020
025
030
035
USUARIOS
Valo
r
Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y
la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior
a 015 y una Desviacioacuten Estaacutendar media inferior a 005
Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios
experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025
obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2
11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos
los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios
118
RESULTADOS DE LOS EXPERIMENTOS
es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la
conclusioacuten anterior
Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
USUARIOS
Valo
r
Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten
entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios
En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten
entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los
usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente
un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares
propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten
753 La R-Precisioacuten
Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute
al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el
caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder
calcular entonces la precisioacuten en la posicioacuten R del orden
119
RESULTADOS DE LOS EXPERIMENTOS
La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten
del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones
experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los
titulares ordenados al usuario
En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los
15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan
en la figura 713
Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665
Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500
01
02
03
04
05
06
07
08
09
10
USUARIOS
Valo
r
Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el
sistema La media mayor es la del usuario 11 y la menor es la del usuario 8
En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten
para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que
maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]
120
RESULTADOS DE LOS EXPERIMENTOS
del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario
ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de
0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para
la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten
media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo
Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la
R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones
experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones
experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media
para esta medida el 11
En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos
por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia
de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se
calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la
pendiente y b es la interseccioacuten
Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios
y = 00058x + 03154
y = 00132x + 05664
00
01
02
03
04
05
06
07
08
09
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
SESIONES
Valo
r
Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)
Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30
sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una
evolucioacuten favorable de la R-Precisioacuten
121
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de
la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de
tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en
ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo
para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de
titulares
76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)
En este experimento se selecciona al usuario que haya arrojado mejores resultados en el
experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema
configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como
medida alternativa en la seccioacuten 531 del capiacutetulo 5
En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas
noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno
para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el
usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan
en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De
esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de
resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante
la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el
mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten
Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP
CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no
resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna
manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en
ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares
similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo
Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados
sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la
sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo
la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la
puntuacioacuten media ideal que en el caso ldquoCOSrdquo
122
RESULTADOS DE LOS EXPERIMENTOS
Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los
valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica
que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo
En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r
en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la
figura 715 se representan graacuteficamente estos datos
Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias
caso r r
COS 0989 0964
JAC 0989 0936
Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30
junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo
Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC
COS media COS JAC media JAC06
07
08
09
10
11
Valo
r
Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de
Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y
ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo
123
RESULTADOS DE LOS EXPERIMENTOS
En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la
sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y
ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso
ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la
Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien
puntuados por el sistema
Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones
en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento
al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de
Jaccard
En general se puede concluir que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la
calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste
experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no
de una palabra en dicho perfil de usuario
77 Resumen
En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en
los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema
propuesto y su eficacia con diversos usuarios
El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema
considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con
nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de
los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos
versiones configuradas del sistema una considerando los resuacutemenes y otra sin
considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en
concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas
mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD
que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el
objeto de determinar que efectivamente existen diferencias significativas entre las dos
alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten
de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se
mantendraacute para el resto de experimentos
124
RESULTADOS DE LOS EXPERIMENTOS
En el segundo experimento (DIV) se probaron diversos valores para el intervalo de
vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En
este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas
propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse
exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados
del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece
significativamente al sistema por lo que finalmente se desestimoacute su uso
El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores
proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten
seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los
resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes
similitudes en el comportamiento de los pares considerados experimentalmente se observoacute
la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media
aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado
El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas
en el primer experimento (CRS) pero en este caso considerando los valores que se han
determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En
este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para
los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables
cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil
de usuario confirmando por tanto las conclusiones del primer experimento
El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con
diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo
realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales
Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la
misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes
necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de
titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario
correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el
sistema configurado para que ofreciera los titulares aleatoriamente al usuario
Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten
las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de
titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la
125
RESULTADOS DE LOS EXPERIMENTOS
Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen
funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la
puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge
cada usuario
Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten
obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se
analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los
usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos
una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un
comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente
mejores ordenaciones de titulares
Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida
distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida
del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores
medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos
medidas concluyendo por tanto que el funcionamiento del sistema es bastante
independiente del meacutetodo de puntuacioacuten elegido
126
Capiacutetulo 8
CONCLUSIONES
En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo
para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de
fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus
preferencias
En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de
informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos
Posteriormente se describieron los aspectos a tener en cuenta para definir y crear
perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de
usuario y las teacutecnicas de inferencia asociadas
El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la
bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer
un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un
agregador inteligente que recomienda contenidos al usuario denominado NectaRSS
Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf
descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de
titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la
medida de Jaccard
Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y
se comproboacute su validez
Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de
investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS
127
CONCLUSIONES
81 Principales Aportaciones y Conclusiones
Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten
Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de
recomendar eacutesta a un usuario seguacuten sus preferencias
Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y
confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial
de seleccioacuten de la informacioacuten ofrecida
Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para
dar la informacioacuten maacutes relevante
Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se
realizan de manera totalmente transparente al usuario
Se han evaluado diferentes estrategias y opciones para que el resultado del sistema
sea oacuteptimo
Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para
distintos usuarios heterogeacuteneos
Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las
ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para
eacuteste que un orden aleatorio
Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se
aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente
128
CONCLUSIONES
elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los
titulares desde el punto de vista del usuario
El sistema demuestra un funcionamiento adecuado para distintos usuarios
El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la
informacioacuten elegido
El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a
sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica
puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que
realmente le interesa sin tener que realizar ninguna otra accioacuten adicional
82 Liacuteneas de investigacioacuten futuras
El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de
investigacioacuten originales que se considera de intereacutes abordar
Determinar el rendimiento del sistema considerando conjuntos de palabras
encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario
Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos
que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en
la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario
Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la
suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario
Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se
mantenga un perfil para cada usuario que visite la paacutegina de los titulares de
129
CONCLUSIONES
informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la
proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de
especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo
Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten
del perfil de usuario
Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses
Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la
informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen
distintos usuarios con perfiles similares
Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a
las que el usuario haya preseleccionado
130
Bibliografiacutea y Referencias
[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive
interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 22-32
[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a
Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso
(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia
Italy Wien SpringerWienNewYork 365-376
[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and
clique-based user models for movie selection a comparative study User Modeling and User Adapted
Interaction 7(4) 279-304
[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture
for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 59-61
[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable
system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159
[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and
Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998
[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press
Addison-Wesley 1999
[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In
Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey
USA 378-385
131
BIBLIOGRAFIacuteA Y REFERENCIAS
[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated
real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)
Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy
Wien SpringerWienNewYork 215-226
[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan
recognition User Modeling and User Adapted Interaction 5(3-4) 317-348
[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989
[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier
Science Publishers 1990
[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext
reading system User Modeling and User Adapted Interaction 4(1) 1-19
[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user
modeling systems International Journal of Human-Computer Studies 40 31-62
[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible
Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004
httpwwww3orgTR2004REC-xml11-20040204
[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of
predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on
Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52
[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM
Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT
Press
[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation
Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean
VA Nov 2000 pp 227-234
httpwwwittckueduobiwan
132
BIBLIOGRAFIacuteA Y REFERENCIAS
[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles
Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer
Science Florida Institute of Technology Melbourne Australia
httpciteseeristpsueduchan99noninvasivehtml
[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W
Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989
[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London
Library Association 1999
[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the
Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project
Cranfield (1966)
[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the
American Society for Information Science v 24 March-April 1973 p87-92
[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing
interests International Journal on Digital Libraries 2 (1) 38-53
[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing
amp Management 23 4 1987 p 249-254
[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos
(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes
[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW
The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994
httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml
[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML
Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas
Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre
de 1998
133
BIBLIOGRAFIacuteA Y REFERENCIAS
[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW
Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998
[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW
Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001
httpservidortiuibesadelaidaCIVEadecivehtm
[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval
Journal of the American Society for Information Science 51 (7) 2000 p 614-624
[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005
httpwwwfeedstercom
[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-
site management system SIGMOD Record 26(3) 4-11 1997
[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information
provision for all users including disabled and elderly people The New Review of Hypermedia and
Multimedia 4 163-188
[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego
Academic Press cop1997 XIV 365 p
[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de
Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos
Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12
Nov de 2002
[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-
Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal
In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies
Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer
Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56
134
BIBLIOGRAFIacuteA Y REFERENCIAS
[Goo 2005] Google Directory RSS News Readers Julio de 2005
httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science
Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers
[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and
heuristics Boston Kluwer Academia Publishers 1998
[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S
The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference
Brisbane Australia 1998
[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic
Publishers 1994
[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system
for supporting information providers in directing users through hyperspace Proceedings of the 3rd on
Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and
Hypermedia 147-156
[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices
in a virtual community of use In Proceedings of CHI 95 Denver CO 1995
[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a
declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-
Oriented Database (DOOD) pages 386-398 Singapore 1997
[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search
engines to query AI Magazine 18(2) 19-25 1997
[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999
httpwwww3orgTRhtml401
135
BIBLIOGRAFIacuteA Y REFERENCIAS
[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an
overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251
1996
[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web
Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th
international conference on World Wide Web 2004
[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext
client of the user modeling system BGP-MS Proceedings of the 4th International Conference on
User Modeling 99-105
[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell
system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106
[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl
J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM
40(3) 77-87
[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley
Computer Publisher 1997
[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface
integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support
ergonomic design of manually and automatically adaptable software Lawrence Erlbaum
97-125
[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW
Conference Santa Clara CA USA 1997
[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington
Virginia Information Resources 1993
[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995
136
BIBLIOGRAFIacuteA Y REFERENCIAS
[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the
14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-
1710
[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer
collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International
Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf
[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of
the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-
929
[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis
Doctoral Universitat Jaume I Castelloacuten 2002
[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva
perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la
Informacioacuten (JOTRI) 2002
[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the
ACM 37 (7) 31- 40
[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86
[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press
1993
[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la
evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de
Documentacioacuten Nordm 7 pp 153-170 2004
[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten
de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten
II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004
137
BIBLIOGRAFIacuteA Y REFERENCIAS
[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user
preferences ontologies in recommender systems In Proceedings of the 1st International Conference
on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001
[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based
inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-
282
[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D
1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91
[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive
information access to scholarly publications on the Web Artificial Intelligence Laboratory
Department of Mathematics and Computer Science 2002
[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL
Development Officer Heriot-Watt University Edinburgh UK 2003
[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering
and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996
[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel
httpwwwuninechinfoclef
[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World
Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997
[OBIWAN 1999] OBIWAN Project University of Kansas 1999
httpwwwittckueduobiwan
[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system
User Modeling and User Adapted Interaction 4 (2) 107-130
[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User
Modeling and User Adapted Interaction 4 (3) 197-226
138
BIBLIOGRAFIacuteA Y REFERENCIAS
[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C
1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay
(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-
Verlag 45-54
[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert
Identifying interesting web sites Proceedings of the 13th National Conference on Artificial
Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml
[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval
progress report Information Processing and Management 36 2000 p 155-178
[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St
Augustin Germany
[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales
assistants User Modeling and User Adapted Interaction 5(3-4) 349-370
[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993
[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea
httpwwwraees
[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online
recruitment environment Smart Media Institute University College Dublin Ireland
mayacsdepauledu~mobasheritwp01papersrafterpdf
[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search
httpwwwcsutexaseduusersmooney
[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues
and Options Workshop House subcommittee on science research and technology
Washington DC Nov 3 1976
139
BIBLIOGRAFIacuteA Y REFERENCIAS
[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354
[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second
edition 1979 httpwwwdcsglaacukKeith
[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal
of American Society for Information Science 27(3)129-46 1976
[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD
Thesis Harvard University Report ISR-10 to National Science Foundation Harvard
Computation Laboratory (1966)
[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center
Editor Dave Winer En liacutenea julio de 2005
httpblogslawharvardedutechdirectory5aggregators
[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005
httpwwwrssfeedscomreadersphp
[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for
the web Communications of the ACM 40(3) 66-73
[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L
Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001
Enero 2003
[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971
[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer
Science Series McGraw-Hill 1983
[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of
Information by-Computer Addison-Wesley 1998
140
BIBLIOGRAFIacuteA Y REFERENCIAS
[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI
NOVATICA nordm 158 pag 5-9 2002
[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation
Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp
115-152
[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive
Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling
[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler
4th Int WWW Conference 1995
[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en
Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005
httpwwwsiaeuiupmesgruposAinfo2pdf
[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example
MIT Lab Cambridge USA
[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones
sobre Literatura en Espantildeol 2003
httppeterpaneuiupmesindexhtml
[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal
of Man-Machine Studies 23 71-88
[Snow 2005] Snowball httpsnowballtartarusorg
[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of
Documentation 31(4)266-72 1975
[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information
Processing and Management 15(3)133-44 1979
141
BIBLIOGRAFIacuteA Y REFERENCIAS
[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML
Technical report Text Encoding Initiative 1996
[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist
user modeling in a complex commercial software system User Model and User-Adapted Interaction
10 (2-3) 109-146
[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic
user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings
of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien
SpringerWien NewYork 189-200
[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited
Information Processing and Management 28 4 pp 467-490 1994
[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability
and usefulness of the WWW 5th International Conference on User Modeling 5-12
[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten
sobre Estructura y Contenido 1999
[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of
the American Society for Information Science 48(2) 1997 p133-142
[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a
methodology for production coherent consistent dynamically changing models of agentrsquos competencies User
Modeling and User Adapted Interaction 5 (2) 117-150
[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the
Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss
[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley
1949
142
Anexo I Lenguajes de definicioacuten de documentos
En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la
recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos
de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute
parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a
introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de
XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el
segundo denominado Atom con un cometido muy parecido al RSS
Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan
tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los
documentos para delimitar los elementos de estructura Por una parte diferenciaremos
entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de
distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de
definicioacuten de un tipo de documento concreto es decir una instancia de SGML
SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por
iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del
mundo editorial que son los contenidos y la forma de presentar esos contenidos en este
caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el
contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML
permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un
lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene
nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este
lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en
[Herwijnen 1994]
AI1 Hypertext Markup Language
HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado
que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su
estructura y contenido
AI-1
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia
difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su
consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]
El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes
documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que
sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria
sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador
que se utilice el responsable de asegurar que el documento tenga un aspecto coherente
independientemente del tipo de maacutequina desde donde se acceda al documento De esta
manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que
facilita enormemente su manejo por cualquier persona
HTML es un lenguaje muy sencillo que permite preparar documentos Web
insertando en el texto de los mismos una serie de etiquetas o tags que controlan los
diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas
que controlan el comportamiento del documento son fragmentos de texto encerrados entre
aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan
simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten
imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento
Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas
con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]
AI12 Evolucioacuten del Lenguaje HTML
El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico
objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre
fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el
lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se
habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador
realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el
sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994
Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se
descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de
HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo
borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades
AI-2
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de
expresiones matemaacuteticas
Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten
en HTML lenguaje apropiado para elaborar de manera sencilla documentos con
posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo
tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML
No se permite que el usuario especifique su propias etiquetas o atributos para
parametrizar o cualificar semaacutenticamente sus datos
No soporta la especificacioacuten de estructuras complicadas para representar esquemas
de bases de datos o jerarquiacuteas orientadas al objeto
No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar
la validez estructural de los datos en el momento de su importacioacuten
AI2 Extensible Markup Language
Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes
de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C
creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para
desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las
aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de
construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y
directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de
estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser
utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de
2005 es la 11 [Bray 2004]
Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la
Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar
Este subconjunto diferiraacute de HTML en tres aspectos fundamentales
1 Se pueden definir nuevas etiquetas y atributos
2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de
complejidad
AI-3
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
3 Cualquier documento XML puede contener una descripcioacuten opcional de su
gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una
validacioacuten estructural
El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el
contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron
[Bray 2004]
Debiacutea ser directamente utilizable sobre Internet
Debiacutea ser compatible con una amplia variedad de aplicaciones
Debiacutea ser compatible con SGML
Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML
Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero
Los documentos XML deberiacutean ser legibles y razonablemente claros
Un disentildeo de XML deberiacutea poderse preparar raacutepidamente
El disentildeo de XML debiacutea ser formal y conciso
Los documentos XML deben ser faacuteciles de crear
AI21 Estructura de XML
Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de
otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los
empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee
normalmente reflejando el tipo de contenido que delimitan
Un ejemplo de sencillo documento XML se muestra a continuacioacuten
ltpersonagt
ltnombre_completogt
ltnombregtJuanltnombregt
ltapellidosgtPeacuterez Fernaacutendezltapellidosgt
ltnombre_completogt
lttrabajogtfontanerolttrabajogt
ltpersonagt
AI-4
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos
elementos hijos del anterior denominados nombre_completo y trabajo En un
documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo
Aunque no es estrictamente obligatorio los documentos XML deben tener una
declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la
codificacioacuten del texto del documento encoding y la autonomiacutea del documento
standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten
externa para determinar los valores apropiados de ciertas partes del documento Una
declaracioacuten ejemplo es la siguiente
ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt
Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor
adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo
un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo
ltpersona nacida=rdquo23-06-1912rdquogt
Alan Turing
ltpersonagt
AI22 Documentos XML bien-formados
Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe
cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son
Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca
final ldquoltrdquo
Los elementos pueden estar anidados pero no superpuestos
Soacutelo puede existir un elemento raiacutez
Los valores de los atributos deben ir entrecomillados
Un elemento no puede tener dos atributos con el mismo nombre
Los comentarios y las instrucciones de proceso no pueden aparecer entre las
marcas
AI-5
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI23 Especificaciones XML
Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas
especificaciones para XML destacando las siguientes
DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento
Contendraacute una definicioacuten formal de un tipo de documento y a la vez una
especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina
como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado
concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional
en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar
bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se
dice que el documento XML es vaacutelido
XML Schema Es una manera de definir tipos de documentos alternativa a DTD
resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue
especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute
fechada a junio de 20052
XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo
de los documentos escritos para XML Permite modificar el aspecto de un
documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL
Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute
definir transformaciones en forma de reglas para convertir un documento XML en
otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir
el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas
bloques de texto en las paacuteginas graacuteficos y muchos otros
Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes
particulares de un documento XML Como soporte para este objetivo principal
tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y
booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de
1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath
AI-6
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un
documento XML
Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos
XML Los enlaces podraacuten ser simples como los habituales en HTML
bidireccionales enlazando dos documentos en ambas direcciones y
multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de
documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML
AI3 Rich Site Summary
ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir
faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para
utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros
muchos tales como los blogs7 o diarios personales en la Web
Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en
una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a
una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es
accesible mediante el enlace del fichero RSS
Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF
Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que
estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una
coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos
simultaacuteneamenterdquo [Moffat 2003]
AI31 Historia y Origen de RSS
Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en
su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado
6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html
AI-7
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador
ofreciendo una forma muy simple de publicar contenidos y permitiendo a los
desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo
Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten
anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la
aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos
RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como
propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado
por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de
extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten
constantemente Generalmente los ficheros se guardan con extensioacuten RDF
RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten
basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado
de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de
su objetivo proporcionar una herramienta para publicar contenidos de una forma
raacutepida y sencilla en la Web
AI32 RSS 092
Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente
compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son
opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido
Elementos obligatorios
En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el
documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o
canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a
continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss
AI-8
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio
ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt
ltdescriptiongt -- La frase que describe el canal
Elementos opcionales
ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos
son opcionales y otros tres son requeridos
lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal
lttitlegt -- Describe la imagen
ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los
elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del
canal
Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son
nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt
contendraacute un texto relacionado con el renderizado de la imagen en HTML
ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los
agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una
uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo
ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal
ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de
contacto para cuestiones de edicioacuten
ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de
contacto si existen problemas teacutecnicos
ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal
ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en
RSS estaraacuten conformes a la especificacioacuten RFC 82215
14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs
AI-9
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal
ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato
utilizado en el fichero RSS
lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione
realimentacioacuten en forma de texto Contiene varios sub-elementos que son
requeridos
lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto
ltdescriptiongt -- Describe el area de texto donde se escribe
ltnamegt -- Nombre del objeto de texto
ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto
ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos
del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o
Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en
este elemento
ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos
de hora que representan la hora en formato GMT17 Los lectores de noticias no
leeraacuten el canal durante las horas especificadas en este elemento
15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich
AI-10
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
iquestQueacute es un iacutetem
Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben
contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno
de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute
compuesto por los siguientes elementos opcionales
lttitlegt Es el tiacutetulo de la noticia
ltlinkgt Direccioacuten Web que apunta a la noticia
ltdescriptiongt Es el resumen de la noticia
Nuevos elementos respecto a la versioacuten RSS 091
ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal
RSS de donde proviene el item se deriva del tiacutetulo
ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto
adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra
ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten
el estaacutendar MIME18
ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo
opcional domain que identificaraacute la categoriacutea en una taxonomiacutea
ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un
servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal
18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje
AI-11
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 092
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un
canal y un elemento item
ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt
ltrss version=092gt
ltchannelgt
lttitlegtELPAISeslttitlegt
ltlinkgthttpwwwelpaisesltlinkgt
ltdescriptiongtRSS de ELPAISesltdescriptiongt
ltlanguagegtes-esltlanguagegt
ltitemgt
lttitlegtEspantildea consigue sus primeros oros en los Juegos del
Mediterraacuteneolttitlegt
ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt
ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una
exitosa jornada de competicioacuten donde sumoacute un total de 23
medallasltdescriptiongt
ltitemgt
ltchannelgt
ltrssgt
En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten
de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y
el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y
descripcioacuten correspondientes
AI-12
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI33 RSS 20
Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible
con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20
vaacutelido
Nuevos elementos respecto a la versioacuten anterior
Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan
definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han
incorporado los siguientes
ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la
direccioacuten Web donde se encuentran los comentarios acerca del item
ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el
programa que ha generado el archivo RSS
ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la
direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la
persona que ha escrito el artiacuteculo
ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de
vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el
canal en memoria antes de ser refrescado
ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que
indica cuaacutendo fue publicado el item
ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador
uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el
item es nuevo o no
AI-13
ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
Un ejemplo de fichero RSS 20
Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un
canal y dos elementos item
ltxml version=10 encoding=utf-8 gt
ltrss version=20gt
ltchannelgt
lttitlegtEl Blog Salmoacutenlttitlegt
ltlinkgthttpwwwelblogsalmoncomltlinkgt
ltdescriptiongtEl Blog Salmoacutenltdescriptiongt
ltcopyrightgtCopyright 2005ltcopyrightgt
ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt
ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt
ltdocsgthttpblogslawharvardedutechrssltdocsgt
ltitemgt
lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt
ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt
ltitemgt
ltitemgt
lttitlegtVuelven las nacionalizacioneslttitlegt
ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt
ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt
ltcategorygtEntornoltcategorygt
ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt
ltitemgt
ltchannelgt
ltrssgt
Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS
tales como ltgeneratorgt y ltpubDategt
AI-14
ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS
AI4 Atom
Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten
de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la
distribucioacuten de contenidos y noticias de sitios web
Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares
similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de
muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en
proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom
La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005
Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda
raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener
maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS
Un ejemplo de Atom 10
Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una
sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de
RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt
ltxml version=10 encoding=utf-8gt
ltfeed xmlns=httpwwww3org2005Atomgt
lttitlegtEjemplo de entradalttitlegt
ltlink href=httpexampleorggt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltauthorgt
ltnamegtJuan Jltnamegt
ltauthorgt
ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt
ltentrygt
lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt
ltlink href=httpexampleorg20031213atom03gt
ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt
ltupdatedgt2003-12-13T183002Zltupdatedgt
ltsummarygtTexto del resumenltsummarygt
ltentrygt
ltfeedgt
19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html
AI-15
Anexo II Un Agregador Inteligente
Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos
disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa
desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el
mismo nombre por simplicidad
La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones
que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o
usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y
seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen
es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como
cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al
usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se
muestra el aspecto usual del programa
Figura AII1 Aspecto principal del programa NectaRSS
AII-1
UN AGREGADOR INTELIGENTE
Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea
acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute
otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya
subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre
seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos
tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2
Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS
Para efectuar los experimentos se dotoacute al programa de un modo de trabajo
especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni
destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha
considerado para no condicionar en modo alguno las decisiones del usuario experimental a
la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura
AII3
AII-2
UN AGREGADOR INTELIGENTE
Figura AII3 Aspecto del programa NectaRSS en modo experimento
Adicionalmente el programa genera una paacutegina web con las recomendaciones de
titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin
httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del
diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los
visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute
personalizado para un usuario concreto puede resultar interesante a personas que
compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en
la figura AII4
AII-3
UN AGREGADOR INTELIGENTE
Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el
programa NectaRSS
A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la
evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del
programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los
experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos
resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores
numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo
informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad
AII-4
UN AGREGADOR INTELIGENTE
AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema
Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web
Diario El Mundo (httpabraldesnetfeedselmundoxml)
Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)
Barrapunto (httpbackendsbarrapuntocombarrapuntorss)
Diario Marca (httpabraldesnetfeedsmarcaxml)
Kriptoacutepolis (httpwwwkriptopolisorgrss)
eCuaderno (httpwwwecuadernocomindexxml)
xataka (httpxatakacomesindexxml)
alzadoorg (httpwwwalzadoorgxmlalzadoxml)
Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)
tintachina (httpwwwtintachinacomindexxml)
Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)
Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)
TIME Magazine (httprsstimecomwebtimersstopindexxml)
CNET reviews (httpreviewscnetcom4924-5_7-0xml)
Artnovela (httpwwwartnovelacomarbackendphp)
Blogdecine (httpwwwblogdecinecomindexxml)
Stardustcf (httpwwwstardustcfcomrdfasp)
Una furtiva mirada (httpfurtivosbloxuscomrdfxml)
Pedro Jorge (httpwwwpjorgecomrss)
Atalaya (httpatalayablogaliacomrdfxml)
Malos Pensamientos (httpmpblogaliacomrdfxml)
Libryscom (httpwwwlibryscomfeedrss)
El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)
AII-5