copia de trabajo investigación - cd universidad de...

UNIVERSIDAD DE OVIEDO

Trabajo de investigación

Web Cooperativa

Área de Lenguajes y Sistemas InformáticosDepartamento de Informática

Autor: Daniel Gayo AvelloDirector: Darío Álvarez Gutiérrez

Junio, 2002

VºBº DEL DIRECTOR DEL TRABAJO VºBº DEL DIRECTOR DEL DEPARTAMENTO

Daniel Gayo Avello Web Cooperativa

i

CCoonntteenniiddooss

Contenidos .......................................................................................... i

Figuras............................................................................................... iii

Tablas ................................................................................................ iii

Presentación y organización del trabajo ........................................... 1

Web Cooperativa............................................................................... 31.1. Introducción........................................................................................................................ 31.2. Contexto del problema ...................................................................................................... 5

Sistemas de recuperación de información tradicionales................................................................................5Rememoración y precisión .....................................................................................................................................................5Uso de palabras clave como sistema de consulta ....................................................................................................................6

La Web como sistema de recuperación de información ................................................................................7Los primeros motores de búsqueda .................................................................................................................8Motores de búsqueda modernos ......................................................................................................................9

Algoritmo de Kleinberg .........................................................................................................................................................9HITS y CLEVER.................................................................................................................................................................10Matizaciones al algoritmo de Kleinberg...............................................................................................................................10Google..................................................................................................................................................................................12

Luchando contra la sobrecarga de información ...........................................................................................13Filtrado de información mediante ecosistemas de agentes....................................................................................................14Filtrado de información en USENET con valoración implícita ...........................................................................................15Filtrado y recomendación de información ............................................................................................................................15Recuperación de información mediante ecosistemas de agentes ...........................................................................................16Recomendación de enlaces (Letizia y PowerScout) ..............................................................................................................16Filtrado de correo electrónico (Magi e IAN) y recomendación de enlaces (LAW)................................................................17Recomendación de documentos (LIRA) ...............................................................................................................................18Asistente de navegación en un único sitio web (WebWatcher)............................................................................................19Comunidades de usuarios (Jasper e IDIoMS) ......................................................................................................................19Filtrado y recuperación de información mediante agentes (Amalthea) ................................................................................20Alerta de cambios en la Web (Do-I-Care) ............................................................................................................................21Recomendación de enlaces (Syskill & Webert).....................................................................................................................21Recuperación de información empleando conceptos (MUSAG)...........................................................................................22Recomendación de documentos (Fab) ..................................................................................................................................22Recomendación de información mediante redes sociales ......................................................................................................23Otras iniciativas (GroupLens, Siteseer, AntWorld) ............................................................................................................23

La Web Semántica ............................................................................................................................................24pre-Web Semántica..............................................................................................................................................................26La Web Semántica ...............................................................................................................................................................27Recuperación de información en la Web Semántica.............................................................................................................28Críticas a la Web Semántica ................................................................................................................................................29

1.3. La Web Cooperativa ........................................................................................................ 31Conceptos frente a palabras clave ..................................................................................................................31Taxonomías de documentos............................................................................................................................32Colaboración entre usuarios............................................................................................................................34

Web Cooperativa Daniel Gayo Avello

ii

Aprendizaje de los intereses del maestro..............................................................................................................................34Recuperación de información para el maestro......................................................................................................................35

Aplicaciones y limitaciones de la Web Cooperativa ....................................................................................36

1.4. ¿Qué NO es la Web Cooperativa?.................................................................................. 39La Web Cooperativa NO es la Web Semántica.............................................................................................39La Web Cooperativa NO son las categorías dmoz o Yahoo! .........................................................................40La Web Cooperativa NO es la Web Colaborativa ........................................................................................41

1.5. Método de investigación propuesto .............................................................................. 431.6. Implicaciones .................................................................................................................... 471.7. Referencias ........................................................................................................................ 49

Apéndice .......................................................................................... 55


iii

FFiigguurraass

Fig. 1 Ejemplo de consulta..........................................................................................................................................5Fig. 2 Documento HTML visto por un buscador primitivo. ..................................................................................6Fig. 3 Formulario para realización de consultas en ALIWEB.................................................................................9Fig. 4 Concentradores (izquierda) y autoridad (derecha). ...................................................................................10Fig. 5 Fragmento del algoritmo de stemming de Porter. .......................................................................................12Fig. 6 Cálculo simplificado de PageRank (Page et al, 1998). ..................................................................................12Fig. 7 Interfaz de PowerScout. ...................................................................................................................................17Fig. 8 Interfaz de Lira (Balabanovic, 1995). .............................................................................................................18Fig. 9 WebWatcher (Armstrong, 1995)......................................................................................................................19Fig. 10 Syskill & Webert requería evaluación explícita (Pazzani et al, 1996)........................................................21Fig. 11 Interfaz para Fab. ...........................................................................................................................................23Fig. 12 Ontología expresada en SHOE. ...................................................................................................................26Fig. 13 Documento HTML anotado mediante la anterior ontología SHOE (ver Fig. 12). ................................27Fig. 14 Un aserto expresado en RDF. ......................................................................................................................28Fig. 15 Consulta SquishQL. .......................................................................................................................................29Fig. 16 Interfaz de búsquedas para SHOE. .............................................................................................................29Fig. 17 Fragmento de una ontología (Heflin, 2000) ...............................................................................................30Fig. 18 Clasificación tradicional y clasificación automática basándose en el ADN mitocondrial. ..................33Fig. 19 Historial y lista de favoritos de un usuario. ..............................................................................................34Fig. 20 Perfil de usuario extraído de los documentos anteriores (ver Fig. 19)...................................................35Fig. 21 Funcionamiento básico de la Web Cooperativa........................................................................................37Fig. 22 Resolución de consultas y recomendación por contenidos en la Web Cooperativa. ...........................38Fig. 23 Recomendación por filtrado colaborativo en la Web Cooperativa.........................................................38Fig. 24 Directorios dmoz, looksmart y Yahoo! ...........................................................................................................40Fig. 25 Sugerencia de un nuevo sitio web para el directorio Yahoo! ...................................................................41

TTaabbllaass

Tabla 1 Comparativa entre distintas iniciativas para recuperar información en la Web. ................................13Tabla 2 Comparativa entre distintas iniciativas para solucionar la “sobrecarga de información”.................25


1

PPrreesseennttaacciióónn yy oorrggaanniizzaacciióónn ddeell ttrraabbaajjoo

a Web es un colosal repositorio de documentos que es procesado,mayoritariamente, por seres humanos. El papel de las máquinas se reduce ala transmisión y visualización de los contenidos y apenas pueden hacer

nada más con los mismos.La Web Semántica (Berners-Lee et al, 2001) pretende cambiar esta situación

de tal forma que los contenidos semánticos de la Web puedan ser manipulados poragentes software. Para ello se están desarrollando diversas tecnologías que permitanla definición de ontologías y el marcado semántico de los documentos basándose enlas mismas.

Sin embargo, aún cuando la Web Semántica puede resultar muy útil encampos como el comercio electrónico, las bibliotecas digitales o la gestión delconocimiento en intranets corporativas, es difícilmente aplicable a la Web de formaglobal.

En este trabajo se propone un enfoque diferente y complementario, la WebCooperativa (Gayo y Álvarez, 2002), que permitiría extraer la semántica de la Webde forma automática, sin necesidad de artefactos ontológicos, independientementedel idioma de los documentos y, además, aprovechando la experiencia de cadaindividuo poniéndola al servicio de la comunidad de usuarios.

El documento se estructura de la forma siguiente: en primer lugar sepresenta el problema existente, a continuación se revisa la literatura para situarlo enun contexto más amplio, posteriormente se describe una posible solución alproblema para, finalmente, explicar el método de investigación a seguir parademostrar la viabilidad de la propuesta así como las posibles implicaciones de lamisma.

Por último, se incluye como anexo un position paper que expone algunas delas ideas del autor. Este trabajo será presentado en agosto de este mismo año en elmarco del 26 COMPSAC, un congreso auspiciado por IEEE y la IEEE ComputerSociety.

L


3

WWeebb CCooooppeerraattiivvaa

1.1. Introducción

xiste entre los usuarios la convicción de que es posible encontrar en la Webcualquier tipo de información. Esta creencia también está firmementearraigada entre la comunidad científica, puesto que la labor de la mayor

parte de los investigadores se ha visto enormemente facilitada desde que TimBerners-Lee propuso la creación de una red global de hiperdocumentos (conocidacomo “La Web”).

Sin embargo, aún cuando la Web permite el acceso a una cantidad enormede información no es, ni mucho menos, un mecanismo de localización deinformación perfecto: no existe un único formato para los documentos1, lascapacidades para proporcionar metainformación son inadecuadas o se utilizan deforma inapropiada, las relaciones (hiperenlaces) que se establecen entre losdocumentos no siempre aportan información valiosa, etc.

Más aún, la Web por sí sola es completamente inútil como fuente deinformación puesto que depende por completo de los motores de búsqueda2,artefactos desarrollados ad hoc para resolver el problema de localizar un documentoen una estructura hipertrofiada y anárquica. Los motores de búsqueda realizan unalabor útil pero puede afirmarse que están llegando al límite de sus posibilidadespues la visión que ofrecen de la Web, aunque de un nivel de abstracción superior alde red de hiperdocumentos, resulta muy pobre para un uso más potente.

Puede parecer exagerado afirmar que los motores de búsqueda estánllegando a sus límites. Sin embargo, como apoyo a esta aseveración presentamosdos recientes3 iniciativas del principal buscador de la Web, Google.

La primera de ellas, Google Answers4 (“Respuestas Google”), permite a losusuarios hacer preguntas a otros individuos, expertos en el uso de Google, pagandopor las respuestas obtenidas. El servicio es definido en los siguientes términos:

“El motor de búsqueda de Google es una gran manera de encontrar información enlínea. Pero a veces incluso los usuarios experimentados necesitan ayuda paraencontrar la respuesta exacta a una pregunta. Google Answers es una forma deconseguir ayuda de expertos en la búsqueda en línea. Al proponer una preguntausted especifica la cantidad que está dispuesto a pagar por la respuesta y ladiligencia con que necesita esa información. Un experto buscará la respuesta y le

1 Aunque una gran parte de los documentos disponibles en el Web están escritos en HTML, cada vez es mayor lacantidad disponible en otros formatos (PDF, RTF, PS, etc); este hecho obliga a la conversión de los mismos a texto planopara su procesamiento perdiéndose así cualquier posibilidad de emplear la metainformación existente en el documentooriginal.2 Un motor de búsqueda, o simplemente buscador, es un artefacto software que explora la Web almacenando en unabase de datos el texto de los documentos que analiza. Al ir procesando documentos se crea un índice que emplea laspalabras que aparecen en cada página web. Cuando un buscador recibe una consulta toma las palabras utilizadas por elusuario y obtiene los documentos indexados por las mismas. Para ordenar los documentos por orden de relevancia setiene en cuenta el número de apariciones de cada palabra de la consulta en los documentos resultantes y en el cuerpototal de documentos de la base de datos. En definitiva, un buscador Web es una herramienta que trabaja con losdocumentos a un nivel puramente léxico.3 Mayo de 2002.4 http://answers.google.com

E


4

enviará la información que está buscando, así como enlaces útiles a páginas websobre el tema. Si usted está satisfecho con la respuesta pagará la cantidadpreviamente estipulada. (Google, 2002a)”

Por lo que se refiere a la segunda, el First Annual Google ProgrammingContest1 (Primer Concurso Anual Google de Programación), tenía como finalidad

“[...] escribir un programa que haga algo interesante con los datos [600.000documentos], de tal manera que pueda escalar sobre una colección de documentosde un tamaño comparable al de la web. Tu trabajo [el del concursante] esconvencernos [a Google] de que tu programa es interesante y escalable; aparte deesto, puedes hacer cualquier cosa que se te ocurra. (Google, 2002b)”

En este documento se sugieren algunas posibles entradas para el concursocomo “detectar páginas prácticamente iguales” o “clasificar páginas por tema”.

A la vista de esto, se puede decir que Google reconoce implícitamente quelas técnicas que emplea en la actualidad ya han alcanzado su techo y está buscando“algo más”. Por otro lado, el autor coincide con Google en que la participación de losusuarios es fundamental (aunque no de la forma que se plantea en Google Answers)y que, efectivamente, la clasificación temática de los documentos va a ser clave en elfuturo.

Sin embargo, los usuarios continúan empleando motores de búsquedatradicionales que ofrecen una visión de la Web puramente léxica y no semántica.Esto hace harto difícil una búsqueda de información productiva y obliga a losusuarios a pasar un tiempo creciente en el proceso de búsqueda examinandocientos de documentos hasta encontrar el apetecido.

Por otro lado, la Web actual presenta otro problema al menos tan seriocomo su carencia de semántica. Cada vez que un usuario navega por la Webestablece un camino que podría ser útil para otros, igualmente, muchos otrospueden haber seguido anteriormente ese camino y haber comprendido su validez osu inutilidad. Sin embargo, todo ese conocimiento experimental se pierdeirremediablemente.

Esta situación es insostenible y exige proporcionar a la Web un nivel deabstracción superior, convirtiéndolo en una Web semántica2 orientada a larecuperación productiva de documentos. Esta necesidad constituye la base delproyecto de tesis del autor:

“Es posible dotar de semántica a la Web de forma automática, transparente para elusuario e independiente del idioma mediante agentes autónomos y algoritmostradicionalmente empleados en biología computacional.”

A lo largo de las siguientes páginas veremos:- Por qué ninguna solución propuesta, hasta donde el autor conoce, es

capaz de proporcionar semántica a la Web de forma automática,transparente para el usuario e independiente del idioma.

- Por qué cree el autor que la biología computacional y los agentesautónomos pueden ayudar a alcanzar semejante objetivo.

- Cómo se pretende demostrar esto empíricamente.

1 http://www.Google.com/programming-contest y http://www.Google.com/programming-contest/winner.html.2 No confundir con la “Web Semántica” de la que se hablará más adelante.


5

1.2. Contexto del problema

a Web actual plantea dos problemas fundamentales: la ausencia desemántica y el aislamiento de los usuarios. En este trabajo se presenta unapropuesta que pretende aliviar ambos problemas. Sin embargo, antes de

presentarla en detalle se proporcionará una visión más amplia del contexto en quese enmarca. Para ello se revisará la bibliografía de los últimos años a fin de esbozarlas iniciativas que han conducido a la situación actual, que es el punto de partida dela tesis propuesta.

Sistemas de recuperación de información tradicionalesEl origen del problema objeto de estudio puede situarse en los modernos

sistemas de recuperación de información textual (Salton y McGill, 1983). Dichossistemas permiten almacenar un gran volumen de documentos escritos en lenguajenatural y facilitan a los usuarios la tarea de localizar documentos específicosmediante la formulación de consultas. Estas consultas no se realizan en ningúnlenguaje especial sino que emplean una o más palabras que describen los interesesdel usuario pudiendo utilizar, además, operadores lógicos como AND y OR. Alrecibir una consulta de este tipo el sistema proporciona como resultado una lista dedocumentos que la satisfacen.

vacaciones Londres OR París

Fig. 1 Ejemplo de consulta.

Esta consulta permitiría localizar información sobre vacaciones en Londres o en París; obsérvese que el operador ANDestá implícito.

Rememoración y precisiónLa efectividad de semejantes sistemas puede evaluarse basándose en dos

medidas: rememoración (recall) y precisión. La primera indica la proporciónretornada del material total que satisface la consulta mientras que la segunda indicael grado de relevancia que ese material tiene para el usuario. Idealmente, ambasmedidas deberían aproximarse al 100%, sin embargo, en los sistemas realesevolucionan de forma inversa. Es decir, al retornarse más documentos para unaconsulta la relevancia de los mismos es pequeña y al aumentarse la precisióndisminuye el número de documentos retornados (muchos textos relevantes noaparecen en los resultados). La tarea de equilibrar precisión y rememoración queda,generalmente, en manos del usuario a la hora de formular sus consultas con mayoro menor grado de detalle. Sin embargo, Salton y McGill hacen especial hincapié enque debería ser el propio sistema el encargado de establecer mecanismosdestinados a aumentar la precisión sin disminuir por ello la tasa de rememoración.

Dejando a un lado su naturaleza distribuida y los detalles tecnológicos, laWeb1 puede entenderse como un sistema de recuperación de información textual.Sería susceptible, por tanto, de ser evaluado en términos de rememoración yprecisión y, desgraciadamente, está aquejado de los mismos problemas que lossistemas de hace veinte años aunque a una escala mucho mayor: la tasa derememoración de la Web es enorme y la necesidad de aumentar la precisión esacuciante.

1 En realidad, el binomio Web+buscadores.

L


6

Uso de palabras clave como sistema de consultaSin embargo, antes de analizar la Web se revisarán algunos de los esfuerzos

realizados en los sistemas de recuperación de información tradicionales de cara aaumentar la precisión de los mismos. A este respecto, (Furnas et al, 1987) presentanun estudio muy interesante sobre el uso de “palabras clave” que hacen los usuariosen dominios específicos, no limitándose a los sistemas de recuperación deinformación. En dicho estudio se demuestra que la probabilidad de coincidenciaentre dos usuarios en el uso de la misma palabra para identificar un único conceptoes inferior al 20%.

A la vista de semejante resultado, Furnas et al concluyen que obligar a losusuarios a utilizar las palabras clave seleccionadas por el diseñador del sistemaconduce a un nivel de acceso muy pobre, haciéndose necesario el uso de algún tipode sistema automático de alias o la colección de las palabras clave utilizadas pordistintos usuarios.

En relación a la resolución de estos problemas, (Gómez, Lochbaum yLandauer, 1990) presentan un sistema que permite localizar recetas de cocina a losusuarios comprobando que aproximadamente el 80% de las palabras claveutilizadas en las consultas aparecían en los textos de las recetas.

Estos resultados tienen implicaciones directas en el desarrollo de interfacesde línea de comandos. Sin embargo, son aplicables a cualquier entorno en el que lainteracción esté dirigida mediante el uso de un vocabulario como sucede en la Web.En la Web actual los usuarios seleccionan una serie de palabras clave que suponenles permitirán acceder a un conjunto de documentos. En los primeros buscadoreslas palabras clave eran localizadas únicamente en el título del documento o en lasetiquetas META del código HTML dando, obviamente, accesos muy limitados –elusuario debía “adivinar” la palabra clave seleccionada por el autor del documento.

<HTML> <HEAD> <TITLE>Página de Juan Lanas</TITLE> <META NAME=DESCRIPTION CONTENT="No hay nadie que ame el dolor..."> <META NAME=KEYWORDS CONTENT="textos latinos, latin, dolor"> </HEAD>

<BODY> Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Duis commodo. Pellentesque rhoncus. Mauris porta, ligula ut interdum feugiat, mi est semper ipsum, a pharetra orci mi id libero. Suspendisse euismod. Nulla non nisl nec magna tempor aliquam. Sed eget purus et mauris convallis egestas. Donec ac velit ac risus pulvinar semper. Phasellus quis massa. Etiam tellus nibh, porta eget, tristique nec, tincidunt et, ante. Curabitur vitae nunc eu enim porta vestibulum. Donec nonummy mollis dolor. Cras pellentesque egestas nibh. Donec sit amet eros at wisi pretium porta. Ut id ipsum eu orci ullamcorper tincidunt. Praesent porttitor. Ut lorem urna, cursus vel, blandit vel, nonummy eget, massa. Maecenas porttitor. </BODY></HTML>

Fig. 2 Documento HTML visto por un buscador primitivo.

Posteriormente se pasaría a indexar el texto del documento de forma parcial–Lycos (Maulding y Leavitt, 1994)– o total –WebCrawler (Pinkerton, 1994)–lográndose así un mayor porcentaje de documentos recuperados por cada palabraclave. Este efecto, inicialmente positivo, ha provocado, a causa del crecimientoexponencial de la Web, una gravísima deficiencia en la precisión.

Sin embargo, esta falta de precisión no afecta únicamente a la Web sino queha aquejado en mayor o menor grado a todos los sistemas de recuperación dedocumentos. (Krovetz y Croft, 1992) son unos de los primeros en señalar que la


7

causa de la escasa precisión de todos estos sistemas radica, fundamentalmente, enla ambigüedad de las palabras, incluso en dominios bien delimitados. Susexperiencias prueban que es el significado otorgado a una palabra, más que lapalabra en sí, el que permite separar los documentos relevantes de los norelevantes.

Consideran, y el autor coincide con ellos, en que la utilización delsignificado tendría un gran impacto en consultas con pocos términos. Este tipo deconsultas recuperan un número enorme de documentos y, a causa de laambigüedad de las palabras clave, su precisión es mínima, pudiendo mejorarse deforma considerable si se considerase el significado de la palabra y no la palabramisma.

Por otro lado, Krovetz y Croft también señalan la utilidad del significado delas palabras para resolver consultas que deberían retornar documentos que nocontienen todas las palabras clave pero sí sinónimos o términos semánticamentepróximos. Esta característica no está implementada en ninguno de los actualesbuscadores y las consecuencias de esta carencia confirman de alguna forma a(Furnas et al, 1987) cuando afirmaban que un sistema que obliga al usuario aemplear las mismas palabras escogidas por el autor del documento sólo puedeproporcionar unos pobres resultados.

La Web como sistema de recuperación de informaciónLa Web nació en el CERN como un sistema de intercambio de información

(Berners-Lee, 1989). Su objetivo básico era evitar la pérdida de informacióninherente a una gran organización así como facilitar el acceso a la informacióndisponible. Dos características fundamentales de la propuesta han convertido a laWeb en lo que es en la actualidad: su naturaleza distribuida y la posibilidad deestablecer vínculos entre los documentos.

Por otro lado, la propuesta original de Berners-Lee insistía en la necesidadde hacer el sistema suficientemente atractivo para animar a los usuarios aincorporar información al mismo, de tal forma que su utilidad creciese al añadirsenuevos documentos y esa utilidad creciente impulsase, a su vez, a seguiraumentando la base de documentos.

En ese documento se hacen algunos apuntes extraordinariamenteinteresantes sobre los posibles problemas para recuperar información en semejantesistema; algunos se reproducen a continuación:

“Las palabras clave constituyen un método habitual para acceder a documentoscuya localización exacta desconocemos. Sin embargo, las palabras clave presentan elproblema de que dos personas nunca eligen las mismas palabras. Así, las palabrasclave sólo son útiles para aquellos usuarios que ya conocen bien la aplicación.

Los sistemas prácticos (por ejemplo VAX/NOTES) exigen el registro de las palabrasclave. Esto ya es un paso adelante. Un sistema de enlaces permite dar otro paso más.Las palabras clave pueden ser nodos que representan un concepto. Un nodo parauna palabra clave no sería diferente de cualquier otro nodo y puesto que se puedenestablecer enlaces con documentos, también se podrían establecer con palabras clave.Así, se podrían encontrar palabras clave al localizar cualquier nodo relacionado conlas mismas. De esta forma, documentos sobre temas similares estarían vinculadosindirectamente mediante sus conceptos clave. De este modo, una búsqueda mediantepalabras clave se convertiría en una búsqueda que partiría de un número reducido


8

de nodos conocidos y permitiría llegar a nodos próximos a ellos. (Berners-Lee,1989)”

En otro punto de la propuesta se hace referencia a la recuperación dedocumentos en dicho sistema:

“Un sistema con enlaces permitiría a los usuarios navegar a través de conceptos,documentos, sistemas y autores, permitiendo, así mismo, almacenar referenciasentre documentos. (Berners-Lee, 1989)”

Así pues, la intención original era construir la Web partiendo de una basesemántica más o menos sólida empleando “nodos conceptuales” que seríanapuntados desde los distintos documentos. Sin embargo, para implementar una“navegación conceptual” que emplease dichos nodos a modo de pasarela seríanecesario que los enlaces fuesen bidireccionales dificultando enormemente eldesarrollo de la Web1.

Por otro lado, la propia definición de cada “nodo conceptual”, su relacióncon otros nodos de ese tipo, la resolución de incongruencias, etc. plantean toda unaserie de problemas que, sin duda, empujaron a los iniciales desarrolladores de laWeb a optar por un esquema más simple, análogo al hipertexto tradicional con lasalvedad de su naturaleza distribuida.

Y es en ese momento preciso cuando el destino de la Web como sistema derecuperación de información quedó sellado. Al eliminar los “nodos conceptuales”se dispone de un artefacto diseñado para crecer de un modo cada vez másacelerado sin incluir ningún tipo de mecanismo capaz de facilitar la localización deun documento en particular.

No obstante, sería un error interpretar esto como una crítica hacia la formaen que se implementó finalmente la Web, esta decisión de diseño facilitó sudesarrollo y posterior crecimiento y, a fin de cuentas, desde la puesta en marcha delprimer servidor web aún transcurrieron tres años hasta que la necesidad de unsistema de búsqueda de información para la Web se hizo apremiante.

Los primeros motores de búsquedaALIWEB (Koster, 1994) es el primer motor de búsqueda de la Web en el

sentido que actualmente se le da al término. Este sistema fue el que estableció unaarquitectura hoy habitual en la cual un robot2 explora las páginas de una serie desitios web (registrados por sus respectivos propietarios), almacenando informaciónpara cada página en una base de datos y permitiendo a los usuarios realizarconsultas sobre la misma.

Uno de los principales inconvenientes de ALIWEB radicaba en que lainformación almacenada por cada página era muy escasa (título, descripción yalgunas palabras clave), limitando, por las razones argumentadas con anterioridad,las posibilidades del usuario a la hora de realizar sus consultas.

WebCrawler (Pinkerton, 1994) soluciona este problema al indexar todo eltexto de cada documento. Como ya se dijo, esta estrategia permite aumentar lacapacidad de rememoración del sistema pero, al mismo tiempo, al crecer elvolumen de documentos explorados la precisión de las respuestas se reduce de

1 En la Web actual sólo es necesario conocer el destino para construir un enlace, no es necesario el conocimiento porparte del nodo destino. Sin embargo, los enlaces bidireccionales precisarían que origen y destino se reconocieranmutuamente.2 Un programa que se ejecuta automáticamente sin intervención humana. Los robots, generalmente, se emplean paraexplorar la Web en busca de información.


9

manera drástica, algo que el desarrollador de WebCrawler comprobó de formaempírica.

Fig. 3 Formulario para realización de consultas en ALIWEB.

Lycos (Mauldin y Leavitt, 1994) constituyó una iniciativa intermedia entreALIWEB y WebCrawler puesto que no indexaba ni el texto completo de losdocumentos ni únicamente el título y la descripción. En su lugar generaba unaversión “ligera” de los documentos constituida por el título, las primeras 20 líneas ylas 100 palabras más relevantes según el criterio de (Salton y McGill, 1983).

ALIWEB, WebCrawler y Lycos indicaron de forma clara que los directorios deenlaces (en la línea de Yahoo! y que habían nacido casi con la Web) eraninsuficientes para permitir la localización de información. Sin embargo, muy prontose señalaron problemas en estos nuevos servicios. Por un lado, cada motor debúsqueda emplea una estrategia de exploración de la Web diferente, haciendo lasbases de datos de documentos también distintas y obligando a los usuarios a probarsus consultas en varios buscadores. Por otro lado, la relevancia de la mayor partede los documentos resultados era escasa, algo que no debería sorprender a nadie.

(Selberg y Etzioni, 1995) señalaron estas deficiencias y desarrollaron unsistema destinado a solventarlas en parte, MetaCrawler. Dicho sistema recibíaconsultas de los usuarios y las lanzaba contra los “buscadores” más populares de laépoca (entre los que se encontraban WebCrawler y Lycos, así como directorios comoGalaxy y Yahoo!). Los resultados recibidos eran filtrados, eliminando los enlacesinaccesibles y los que eran considerados irrelevantes.

En aquellos momentos, un metabuscador parecía la solución más adecuaday probablemente lo era. Sin embargo, como se vería más adelante, un solo motor debúsqueda podía intentar dar un servicio semejante al de MetaCrawler tan sóloabarcando una mayor porción de la Web y mejorando la precisión de losresultados.

Motores de búsqueda modernosTanto los motores de búsqueda como los metabuscadores habían

re-encontrado un viejo problema: la escasa precisión en un sistema de recuperaciónde información. La cuestión radicaba ahora en encontrar una forma de solventarlo,tal vez aprovechando una característica que diferencia a la Web del resto desistemas de recuperación: su naturaleza hipertextual.

Algoritmo de KleinbergJon Kleinberg sentó en un texto ya clásico (Kleinberg, 1998) las bases sobre

las que descansarían los modernos motores de búsqueda al presentar los conceptosde “autoridad” y “concentrador” (hub) que aprovechan, precisamente, la estructuraglobal de la Web.


10

Kleinberg presta atención al problema de la precisión/relevancia de losresultados ofrecidos por los buscadores y señala que semejante característica estotalmente subjetiva y precisa de una evaluación humana. Así pues, ¿sería posiblecalcular la relevancia, así entendida, de forma puramente algorítmica?

Para llevar a cabo esta tarea, Kleinberg definió los conceptos de “autoridad”y “concentrador”. Una “autoridad” sería un documento fuertemente vinculado,esto es, un documento al que muchos otros documentos apuntan. Cada uno deestos enlaces podría considerarse un “voto” a favor del documento destino y,puesto que cada enlace fue establecido por una persona, dicho voto estimaríaindirectamente la calidad del documento desde una perspectiva humana.Analizando los textos empleados como enlaces al documento destino junto con eltexto del mismo podría determinarse para qué términos o materias el documentoen cuestión es una autoridad. Por su parte, un “concentrador” sería un documentocon enlaces a muchas “autoridades”.

Fig. 4 Concentradores (izquierda) y autoridad (derecha).

HITS y CLEVERLa implementación de estos conceptos se desarrolló en los prototipos HITS

(Chakrabarti et al, 1998a) y CLEVER (Chakrabarti et al, 1998b), siendo el último unaextensión del primero. Dichos prototipos no tenían como objetivo realizarbúsquedas de documentos en la Web sino tan sólo proporcionar aquellosdocumentos más relevantes en relación a un tema determinado, es decir, las“autoridades”.

Para evaluar la precisión conseguida con las técnicas implementadas losinvestigadores seleccionaron una serie de consultas genéricas y obtuvieron los diezdocumentos más relevantes según CLEVER, Altavista (un buscador tradicional) yYahoo! (un directorio).

Posteriormente, un grupo de usuarios evaluó los resultados y dio unavaloración subjetiva para cada página. Los resultados mostraron que la precisiónmedia de CLEVER superaba el 50%, frente al 40% de Yahoo! o el 20% de Altavista. Ala vista de semejantes resultados los autores planteaban la posibilidad dedesarrollar de forma automática jerarquías (taxonomías) para cualquier tipo detema aunque limitándose a páginas extremadamente relevantes.

Matizaciones al algoritmo de KleinbergSin embargo, las técnicas propuestas por (Kleinberg, 1998) y (Chakrabarti et

al, 1998b) aún cuando suponen un salto cualitativo frente a los antiguos buscadorescomo Lycos o WebCrawler no son ni mucho menos perfectas. (Bharat y Henzinger,1998) plantean tres situaciones en las cuales dichos algoritmos se comportan demanera pobre: relaciones entre hosts mutuamente reforzadoras, enlaces generadosautomáticamente y documentos no relevantes.


11

En el primer caso, si varios documentos alojados en un único servidorapuntan a un único documento externo dichos enlaces cuentan en el algoritmo deKleinberg como votos diferentes aumentando, de manera injusta, la “puntuación”del documento destino. Bharat y Henzinger plantean la necesidad de reducir elpeso otorgado a enlaces que parten desde un único host a un único documento.

El segundo caso hace referencia a los enlaces introducidos por herramientasde desarrollo, proveedores de servicios web, etc. Dichos enlaces no han sidocreados por una persona y, en consecuencia, no representan ninguna valoraciónsobre la calidad del documento apuntado.

El último caso se produce cuando un documento no relevante (por sucontenido) está vinculado desde una autoridad o un concentrador, considerándoloentonces y de manera incorrecta como un documento relevante. Un buen ejemploserían las páginas personales de los autores de documentos muy referenciados.

Para tratar de solucionar estos problemas Bharat y Henzingercomplementan el algoritmo de Kleinberg con dos nuevas características.

Por un lado, limitan el “peso” otorgado a enlaces a un documento queparten de un único host. Esta solución, sin embargo, sigue planteando problemaspuesto que un único host puede albergar documentos de distintos autores y, portanto, sus “votos” serían independientes e injustamente devaluados con el nuevoalgoritmo. Un estudio muy interesante y más riguroso sobre los “enlacesnepotistas1” puede verse en (Davison, 2000a).

Por otro lado, realizan un análisis del contenido de los documentosobtenidos por el algoritmo para determinar su relevancia en relación a la consultarealizada. Emplean, para ello, algoritmos clásicos de recuperación de información ypara tratar de solventar los inconvenientes de las palabras clave utilizan unalgoritmo de stemming.

Los algoritmos de stemming tienen como finalidad reducir una palabra a suraíz, así, por ejemplo, anduve, andaré y ando “colapsarían” a and. La idea esmuy atractiva pero plantea el problema de que es total y absolutamentedependiente del idioma. Así, en el prototipo descrito se emplea el algoritmo dePorter (Porter, 1980) que implementa directamente en el código las reglas paradeterminar las raíces de palabras inglesas (ver Fig. 5).

Por tanto, aún cuando los resultados del prototipo eran, según sus autores,un 45% mejores que los obtenidos con el algoritmo de Kleinberg, el sistema seríamuy difícilmente aplicable a la Web de manera global por cuestiones lingüísticas.De todos modos, también se han señalado algunos inconvenientes de la primeramejora puesto que es muy difícil, por no decir imposible, determinar si dosdocumentos hospedados en un mismo servidor pertenecen al mismo autor (o si dosdocumentos hospedados en servidores diferentes pertenecen a autores distintos).

En resumen, esta iniciativa matiza algunos aspectos del algoritmo deKleinberg y señala la necesidad de analizar el contenido de los documentos. Sinembargo, el enfoque planteado para llevar a cabo este análisis salvando el problemade las palabras clave no es el más adecuado para lograr un sistema independientedel idioma.

1 Aquellos enlaces que apuntan a un documento no por su mérito sino para “forzar” su popularidad.


12

/* step3() deals with -ic-, -full, -ness etc. similar strategy to step2. */

void step3() { switch (b[k]){

case 'e': if (ends("\05" "icate")) { r("\02" "ic"); break; } if (ends("\05" "ative")) { r("\00" ""); break; } if (ends("\05" "alize")) { r("\02" "al"); break; } break;

case 'i': if (ends("\05" "iciti")) { r("\02" "ic"); break; } break;

case 'l': if (ends("\04" "ical")) { r("\02" "ic"); break; } if (ends("\03" "ful")) { r("\00" ""); break; } break;

case 's': if (ends("\04" "ness")) { r("\00" ""); break; } break;

} }

Fig. 5 Fragmento del algoritmo de stemming de Porter.

Obsérvese que el algoritmo de Porter implementa las reglas para obtener las raíces de las palabras en inglésdirectamente. En el ejemplo que se presenta se muestra la forma en que palabras como usefulness, serían reducidasen una primera iteración a useful y en una segunda a use. El algoritmo implementa de manera análoga reglas paratrabajar con plurales, tiempos verbales, etc. Aunque es factible aplicar esta técnica a otros idiomas, requiere undesarrollo específico para cada uno y, en función de la calidad del algoritmo implementado, los resultados pueden variarmucho de un idioma a otro.

GoogleSi la Web marcó un antes y un después en Internet, Google (Brin y Page,

1998) ha tenido un efecto similar sobre la Web. El núcleo de este buscador es elalgoritmo de PageRank (Page et al, 1998) que, aunque muy similar al algoritmo deKleinberg, aporta ideas innovadoras que permiten evaluar la relevancia de undocumento de un modo desconocido hasta aquel momento.

El algoritmo otorga a cada documento un valor, también denominadoPageRank, que indica la relevancia objetiva del mismo. El cálculo de dicho valorextiende las ideas de autoridades y concentradores al no dar el mismo peso a todoslos enlaces y propagar el PageRank1 de un documento a los documentos que apunta.Así, documentos muy referenciados (autoridades) tendrán valores altos y, esto esuna novedad, documentos escasamente referenciados pero desde documentosautorizados “heredarán” valores de PageRank elevados.

100 53

9 50

3

33

50

50

Fig. 6 Cálculo simplificado de PageRank(Page et al, 1998).

El buscador Googleutiliza el algoritmo de PageRankjunto con otras medidas (textode los enlaces, posición de laspalabras clave dentro deldocumento, etc.2) para ordenarlos resultados obtenidos ypresentárselos al usuario. Deesta forma, los documentos quese ofrecen en primera instanciaserán los más relevantes (alestilo de Kleinberg) pero sineliminar la posibilidad deconsultar otros documentos noconsiderados tan relevantes porel algoritmo.

1 Normalizado por el número de enlaces de salida.2 El lector interesado en la forma en que la estructura de un documento HTML puede emplearse para determinar lamayor o menor relevancia de un término dentro de un documento debería consultar (Davison, 2000b).


13

Al hacer esto, el buscador vuelve a lograr unas tasas de rememoraciónelevadas (el algoritmo de Kleinberg no muestra todos los documentos relevantes,sólo las autoridades) a costa, nuevamente, de sacrificar la precisión puesto que losdocumentos menos relevantes retornados por Google podrían ser descartados si sepudiera conocer algo más acerca de los intereses del usuario que realiza la consulta.

Propuesta Tipo de buscadorRequiere registro previo de

documentosInformación empleada para

determinar relevancia

ALIWEB(Koster, 1994)

Robot Sí

Título, descripción y palabrasclave (información introducidapor el usuario al registrar eldocumento)

WebCrawler(Pinkerton, 1994)

Robot No Texto completo del documento

Lycos(Mauldin y Leavitt, 1994)

Robot No Título, 20 primeras líneas, 100palabras más relevantes

MetaCrawler(Selberg y Etzioni, 1995)

Metabuscador(WebCrawler, Lycos, Galaxy,

Yahoo!)No

Elimina documentosinaccesibles. Emplea palabrasclave para determinarresultados irrelevantes.

HITS(Chakrabarti et al, 1998a)

CLEVER(Chakrabarti et al, 1998b)

Robot No

Texto completo junto conalgoritmo de Kleinberg:valoración indicada porestructura hipertextual de laWeb (autoridades yconcentradores)

GoogleBrin y Page, 1998) Robot No

Algoritmo PageRank, extiendealgoritmo de Kleinberg. El valorPageRank “fluye” y se distribuyeentre los documentos enfunción de sus vínculos.

Tabla 1 Comparativa entre distintas iniciativas para recuperar información en la Web.

Luchando contra la sobrecarga de informaciónComo vemos, la Web parece tropezar una y otra vez con el problema de la

escasa relevancia de los documentos. En los inicios de la Web bastaba con sercapaces de encontrar el documento que se buscaba (ALIWEB, WebCrawler o Lycos).Posteriormente, el acelerado crecimiento de la Web llevó a un nuevo desequilibrioentre precisión y rememoración obligando a desarrollar nuevas técnicas(MetaCrawler –un metabuscador–, algoritmo de Kleinberg, CLEVER y, por fin,Google) que mejoraron parcialmente la situación. Sin embargo, la Web sigue enexpansión y las técnicas que facilitan su exploración exhaustiva hacen que cada vezsean más los documentos relevantes para consultas formuladas mediante palabrasclave.

El problema ahora, más que una falta de precisión es una sobrecarga deinformación. Este problema es casi tan antiguo como Internet1. Los usuarioscomenzaron a sufrir la sobrecarga de información con los mensajes de correoelectrónico y, especialmente, con los artículos publicados en USENET.Posteriormente, con la Web se produjo una situación semejante ante los resultadosdevueltos por los buscadores para las consultas más comunes.

Durante la última década se han realizados múltiples propuestas destinadasa aliviar esta situación. Algunas se propusieron específicamente para alguno de losservicios antes mencionados (correo electrónico, USENET o Web) mientras queotras pretendían filtrar todo tipo de información procedente de Internet.

1 Algunos datos curiosos: La primera referencia en USENET a la expresión “information overload” fue hecha por WarrenMontgomery el 22 de diciembre de 1982 en net.auto; este usuario sugería dividir el grupo en tres subgrupos para“facilitar el problema de la sobrecarga de información (Montgomery, 1982)”. El primer artículo científico, del que el autortiene constancia, que hizo referencia al problema fue (Hiltz y Turoff, 1983).


14

Por lo que se refiere a las tecnologías empleadas son básicamente tres,empleadas de forma independiente o combinada: agentes, filtrado colaborativo yrecomendación por contenidos.

- Agentes. Un agente es un elemento software capaz de interactuar con suentorno (incluidos otros agentes) para realizar una tarea enrepresentación de un usuario o de otro agente. Los agentesimplementan algún tipo de inteligencia artificial que les permite actuarde manera autónoma y determinar las acciones apropiadas pararesponder a los eventos del entorno. Internet ha supuesto un revulsivomuy importante para el desarrollo de agentes.

- Filtrado colaborativo. El filtrado colaborativo (Goldberg et al, 1992)proporciona a un usuario lo que otros individuos similares encontraronde utilidad antes que él. Un ejemplo típico es el servicio de Amazon1

“Customers who bought this book also bought...” (“Los clientes que compraroneste libro también compraron...”)

- Recomendación por contenidos. Por su parte, la recomendación porcontenidos, proporciona recursos similares a un recurso de partida yprecisa, por tanto, de algún tipo de análisis de dichos contenidos (ennuestro caso del texto de los documentos).

A continuación se describirán brevemente algunas de las iniciativaspropuestas para atenuar la sobrecarga de información. Se señalarán aspectosinteresantes o innovadores de las mismas, así como algunas críticas en cuanto a suviabilidad para resolver el problema objeto de estudio: la recuperación deinformación relevante en la Web de forma transparente para el usuario.

Filtrado de información mediante ecosistemas de agentes(Baclace, 1991 y 1992) propone un ecosistema de agentes destinados a filtrar

la información que recibe un usuario. Para cada documento se extraen una serie decaracterísticas (como autor o palabras clave). Posteriormente, se informa a losagentes sensibles a las características encontradas para que valoren en una escala de-1 a 1 el documento cargando a cada uno un coste fijo de transacción. Cuando todoslos agentes han valorado el documento se le otorga una puntuación media y, unavez se dispone de suficientes documentos, se transmiten a los usuarios.

Los usuarios, por su parte, deben valorar cada documento también en unaescala de -1 a 1. Esta valoración de los usuarios sirve para establecer una“competición” entre los agentes, aquellos que otorgaron al documento unapuntuación poco acertada son penalizados y la recompensa que “pierden” esrepartida entre los que se han aproximado más a los criterios del usuario.

Esta competición entre agentes, aunque de inspiración económica, secomporta como un algoritmo genético puesto que los mejores agentes (los queofrecen buenas recomendaciones) siempre disponen de crédito para poder pagarsus transacciones mientras que los peores agentes terminan descartados por falta decrédito; podría decirse, por tanto, que se trata de un algoritmo “darwinista social”.

Tras una serie de iteraciones, el sistema está poblado por agentesespecializados en distintos tipos de documentos que ofrecen valoraciones acertadaspara los usuarios (en realidad, para grupos de usuarios que comparten interesescomunes).

1 http://www.amazon.com


15

Esta propuesta es muy interesante pero presenta dos problemasfundamentales. En primer lugar, los agentes disponen de muy poco conocimientosobre el documento (tan sólo el autor y las palabras clave). En segundo lugar, elusuario debe valorar explícitamente todos los documentos que recibe; esto sólosería práctico si el usuario recibe pocos documentos. Además, otorgar unavaloración global a un documento es, en general, poco adecuado y es mucho másconveniente valorar partes específicas.

Filtrado de información en USENET con valoración implícita(Morita y Shinoda, 1994) describen un experimento que trató el problema de

proporcionar artículos interesantes de USENET a un grupo de usuarios en funciónde sus preferencias. El sistema presentado obtenía las valoraciones de maneraimplícita (a partir de los tiempos de lectura, de las acciones realizadas en el entornoy de las acciones realizadas sobre el texto del artículo) demostrando así que esposible extraer información relevante para el usuario sin necesidad de requeririnformación del mismo.

No obstante, Morita y Shinoda consideran que una búsqueda semántica noes necesaria y que bastaría emplear un algoritmo basado en coincidencia desubcadenas. Dicho algoritmo sería una alternativa sencilla a la aplicación de unalgoritmo de stemming (ver “Matizaciones al algoritmo de Kleinberg”) comopropusieron (Bharat y Henzinger, 1998).

Este algoritmo tendría la ventaja de ser independiente del idioma pero esdifícil de garantizar que alcance, por su simplicidad, el 45% de mejora en laprecisión que Bharat y Henzinger aseguran lograr con documentos en inglés. Porun lado, Morita y Shinoda trabajan con artículos de USENET con lo cual elalgoritmo de Kleinberg (que Bharat y Henzinger emplean en una versiónmodificada) es inaplicable. Por otro, no todos los idiomas responderían por igualante el algoritmo debido a distintas irregularidades en la construcción de laspalabras.

Por todo ello el autor cree que, aunque la contribución de Morita y Shinodaes interesante en lo que se refiere a valoración implícita de documentos, el enfoqueque plantean para el análisis de los contenidos es demasiado simplista.

Filtrado y recomendación de información(Maes, 1994) y (Etzioni y Weld, 1994) describen iniciativas similares; en

ambos casos se pretende desarrollar agentes software que utilicen los serviciosInternet de forma autónoma y ofrezcan al usuario una interfaz integrada (Etzioni yWeld, 1994) o servicios de valor añadido (Maes, 1994). El trabajo de Etzioni y Weldse centra, fundamentalmente, en los aspectos de planificación mientras que Maes loorienta más hacia el aprendizaje de las preferencias del usuario y el filtrado deinformación.

En (Maes, 1994) se describen una serie de agentes especializados con uncometido similar al de los descritos en (Baclace, 1991 y 1992): filtrar correo yartículos de USENET News, además de recomendar libros y música.

Al igual que Baclace, Maes espera que el usuario ofrezca una valoraciónexplícita para las recomendaciones que hace el agente. Como ya se ha dicho conanterioridad, este enfoque no es el más adecuado. Por lo que respecta al sistema derecomendación de música y libros, que derivaría en una iniciativa comercial, Firefly,


16

era aún más intrusivo1 y requería del usuario una gran cantidad de informaciónsobre sus preferencias para poder hacer recomendaciones más o menos acertadas.

Recuperación de información mediante ecosistemas de agentes(Menczer et al, 1995) presenta una propuesta similar a la de (Baclace, 1991 y

1992) aunque con algunas diferencias importantes. En primer lugar, el sistema seemplea para realizar consultas en la Web y no para filtrar información. En segundo,los ecosistemas de agentes se crean para cada consulta y no existen y evolucionande forma indefinida. Por último, la metáfora que emplea es puramente ecológica yno económica, los agentes disponen de una cierta energía que consumen al explorarla Web y pueden recuperar parte de la energía consumida presentando algúndocumento al usuario que debe valorarlo de manera explícita.

Son varias las críticas que se pueden hacer a esta propuesta: la valoraciónexplícita de los documentos por parte del usuario es una, aunque quizás la másgrave sea la imposición de crear una nueva comunidad de agentes para cadaconsulta (comunidad que, además, se crea con unos documentos de partidaelegidos al azar o tomados entre los resultados de un buscador tradicional).

Por otro lado, Menczer et al realizaron su experimento con un conjunto muypequeño de documentos cortos y reconocen esta limitación. Así pues, es muy difícilsaber cómo se comportaría en situaciones reales con un conjunto de documentos deun tamaño comparable a la Web.

Recomendación de enlaces (Letizia y PowerScout)Letizia (Lieberman, 1995) es un agente que asiste al usuario mientras éste

navega por la Web. Letizia analiza las acciones del usuario (activar un enlace, grabaro imprimir el documento, etc.) para determinar el interés de los documentos,determina de forma aproximada el contenido de los documentos extrayendo unaserie de palabras clave y, además, explora la Web en segundo plano en búsquedade documentos similares a los que el usuario considera interesantes. Losdocumentos valorados como potencialmente interesantes se almacenan en una listaque evoluciona a medida que avanza la exploración del usuario; de tal forma quepuede, en cualquier momento, solicitar al agente una recomendación que ésteextrae de la lista anterior.

Son varios los aspectos a valorar en esta propuesta: no requiere valoraciónexplícita del usuario, determina un perfil aproximado para el mismo y explora laWeb en representación del usuario. Sin embargo, también presenta algunosinconvenientes: el análisis del contenido de los documentos es muy simple y puedeconducir a recomendar documentos irrelevantes que coinciden en algunas palabrasclave. Letizia sólo explora documentos próximos a aquel en que se encuentra elusuario; además, la experiencia pasada del usuario o de otros usuarios con interesessimilares no es tenida en cuenta.

PowerScout (Lieberman et al, 2001) extiende las características de Letizia enaquellos aspectos en que ésta fallaba. Así, PowerScout no explora documentospróximos al que el usuario está analizando sino que genera consultas a partir de las

1 Ringo (Shardanand y Maes, 1995) requería que el usuario valorase una lista de ¡125 artistas! Así pues, Maes “resolvía elproblema de la falta de coordinación de la masa... coordinándola. (Candeira, 2001)”; Candeira menciona una ácida crítica dePhilip Greenspun, desgraciadamente el documento original no está actualmente disponible aunque se puede consultaruna copia en la caché de Google (http://216.239.51.100/search?q=cache:tgNL47cgdnIC:philip.greenspun.com/wtr/dead-trees/53015.htm+personalization+%22two+professors+%22).(Billsus y Pazzani, 1998) proponen una técnica mucho más eficiente que la presentada en Ringo que permite utilizar lasvaloraciones de unos usuarios como predictores para otros aún cuando no exista ninguna coincidencia entre loselementos evaluados.


17

palabras clave que extrae del documento y emplea un motor de búsquedatradicional (Altavista) para obtener nuevos documentos. Además, PowerScout tieneen cuenta los diversos intereses del usuario mediante el mantenimiento de perfilesy trata de obtener, a partir de las recomendaciones que encuentra, conceptosgenéricos que el usuario puede añadir a uno de sus perfiles.

PowerScout supone una notable evolución respecto a Letizia pero adolece deuna serie de defectos. Por ejemplo, sigue empleando un conocimiento muy nimiosobre los documentos (una lista de palabras clave). Aunque el usuario puedeconstruir los perfiles de forma sencilla (seleccionando conceptos propuestos por elagente) tiene que hacerlo de forma explícita. Además, la técnica que PowerScoututiliza para localizar documentos relacionados con el actual (formular consultas enun buscador tradicional) es muy pobre puesto que la falta de precisión del buscadorrepercute necesariamente en la precisión del agente.

Filtrado de correo electrónico (Magi e IAN) y recomendación de enlaces (LAW)Magi (Payne y Edwards, 1995) es un agente para filtrar el correo electrónico

que recibe un usuario. Plantea diferencias muy importantes frente a (Baclace, 1991 y1992) y (Maes, 1994). Magi observa el comportamiento del usuario y “aprende” lasreglas que éste emplea para priorizar los correos a leer, las carpetas donde se debenmover o qué correos pueden borrarse. El usuario no necesita controlar a Magicontinuamente sino que establece un nivel de confianza en el agente. Si unapredicción del agente tiene un nivel de auto-confianza mayor o igual que laconfianza otorgada por el usuario la acción se lleva a cabo sin consulta y si el niveles menor se solicita confirmación.

Naturalmente, el agente necesita un proceso de aprendizaje yentrenamiento puesto que en los primeros momentos el usuario aún no confía losuficiente en Magi. Sin embargo, con el tiempo, las predicciones de Magi mejoran, yla confianza depositada en el agente por el usuario aumenta hasta conseguir unfuncionamiento prácticamente autónomo.

Fig. 7 Interfaz de PowerScout.

Las recomendaciones de la izquierda se agrupan por conceptos y se actualizan dinámicamente. A la derecha, diálogo debúsqueda. (Lieberman et al, 2001).


18

Esta propuesta presenta conceptos muy interesantes como la posibilidad deque el agente aprenda reglas de comportamiento del usuario así como elestablecimiento de un nivel de confianza del usuario en el agente. Sin embargo,aunque interesante, el sistema se aplica al filtrado de correo y no a una tarea máscompleja como la localización de documentos interesantes en la Web.

(Edwards et al, 1996) presenta una evolución del trabajo anteriormaterializada en IAN (Intelligent Assistant for News) y LAW (A Learning Apprenticefor the World Wide Web). El primero no presenta apenas diferencias con propuestascomo la de (Maes, 1994) mientras que el segundo presenta paralelismos con Letizia(Lieberman, 1995), PowerScout (Lieberman et al, 2001) o Personal WebWatcher(Mladenic, 1996). LAW no necesita que el usuario valore explícitamente losdocumentos propuestos y no depende de ningún buscador para explorar la Web.Sin embargo, las técnicas que emplea para procesar el contenido de los documentosson las clásicas de extracción de palabras clave.

Recomendación de documentos (LIRA)LIRA (Balabanovic, 1995) es un agente que permitía recomendar

diariamente a un usuario un pequeño conjunto de páginas web potencialmenteinteresantes. Según sus autores, a lo largo del experimento el sistema ofreció en un50% de los casos mejores resultados que los ofrecidos por un experto humano. Sinembargo, el experimento se hizo con un máximo de 6 usuarios simultáneamente ydurante apenas 3 semanas por lo que no pueden considerarse unos datosexcesivamente concluyentes.

Son varias las críticas que se pueden hacer a LIRA: requería de los usuariosuna valoración explícita de los documentos, sólo funcionaba adecuadamente si elusuario manifestaba un único interés bien definido y, además, empleaba extracciónde palabras clave como herramienta de análisis de contenidos. Esto último semanifestaba en una limitación reconocida por los propios investigadores:

“Las páginas retornadas por el sistema son a menudo muy similares entre sí, tal ycomo han señalado muchos de los usuarios. (Balabanovic, 1995)”

Fig. 8 Interfaz de Lira (Balabanovic, 1995).

Como se puede ver, Lira requiere del usuario una valoración explícita de los resultados.


19

Asistente de navegación en un único sitio web (WebWatcher)WebWatcher (Armstrong, 1995) es una iniciativa en cierto modo similar a

Letizia (Lieberman, 1995) o PowerScout (Lieberman et al, 2001) puesto que observa elcomportamiento del usuario en su proceso de búsqueda de información en la Weby recomienda documentos que pueden ser potencialmente interesantes.

No obstante, a diferencia de Letizia y PowerScout, WebWatcher no es unsoftware localizado en el cliente sino en el servidor. De esta forma un usuario puededisfrutar de las ventajas de un agente independiente de la máquina en que estétrabajando. Además, al tratarse de un software centralizado las recomendaciones deWebWatcher se ven respaldadas por las valoraciones que hayan hecho usuariosanteriores.

Esta característica hace muy interesante la propuesta; sin embargo, existenciertas peculiaridades que la limitan bastante. En primer lugar, el usuario debeinformar al agente sobre el tipo de información que pretende encontrar (un artículo,una página web personal, la página web de un proyecto, software, informaciónacadémica, u “otra cosa”). En segundo lugar, las valoraciones son extremadamentesimplistas (“Encontré lo que buscaba” o “No encontré lo que buscaba”). Por último,WebWatcher no distingue a los usuarios1. Por todo ello, WebWatcher queda reducidoa un asistente que facilita la localización de información en el sitio web de unaorganización.

Fig. 9 WebWatcher (Armstrong, 1995).

WebWatcher precisaba que el usuario indicase qué tipo de información buscaba en el sitio web; al navegar por el sitio serecomendaban enlaces adecuados.

Comunidades de usuarios (Jasper e IDIoMS)Jasper (Davies et al, 1995) es un sistema basado en agentes para dar soporte a

una comunidad de usuarios desarrollado en los Laboratorios BT. Al explorar laWeb cada usuario puede solicitar a Jasper el almacenamiento de aquellosdocumentos que considere interesantes. El sistema solicita una lista de palabrasclave y una anotación (generalmente una breve explicación acerca del interés deldocumento) almacenando todo esto junto con una lista de palabras clave generadaautomáticamente, un resumen de 150 palabras, el título y el URL del documento.Además, Jasper construye un perfil para cada usuario a medida que éste vaalmacenando información en el sistema.

1 Personal WebWatcher (Mladenic, 1996) es una evolución de WebWatcher destinada a adaptarse a cada usuario; sinembargo, y a pesar de esta evolución, comparte la mayor parte de características de WebWatcher y, por tanto, susdeficiencias.


20

Este almacén de metainformación es empleado de distintas formas: losusuarios pueden consultarlo empleando palabras clave, solicitando novedadesadecuadas a su perfil, o acudiendo a una serie de grupos de interés a los que seasignan los documentos. Además, los agentes se comunican entre sí, de tal formaque un usuario puede ser notificado de la aparición de un documento de su interésen el momento en que otro usuario lo almacena en el sistema.

Este proyecto ha continuado su evolución y se ha integrado junto con otrasiniciativas en IDIoMS (Azarmi et al, 2001). En ese artículo se mencionan los sistemasBugle, Grapevine, iVine, Pandora, Radar y Jasper.

Bugle construye un diario personalizado con artículos adaptados a losintereses de cada usuario. Grapevine es un sistema para notificar a un usuario sobrela aparición de otros usuarios con intereses similares a los suyos, siendo iVine unaversión interactiva de este sistema. Pandora permite a los usuarios ampliar su puntode vista al recomendar información utilizada por usuarios similares. Radar es unasistente que sugiere información relevante para un usuario a medida que esterealiza alguna actividad (p. ej. redactar un documento). Por último, Jasper mantienela misma funcionalidad que en (Davies et al, 1995).

Sin lugar a dudas, este es uno de los proyectos más interesantes de todos losestudiados; el autor comparte muchas de las ideas que implementa aunque no estáde acuerdo en algunas otras: ya se han señalado en más ocasiones los problemas deobligar al usuario a dar una valoración explícita, en este caso se va más allásolicitando palabras clave y una anotación (en el caso de Jasper). Este sistema puedefuncionar adecuadamente con personas motivadas1 pero difícilmente será escalablea toda la Web. Por otro lado, la información que se mantiene para cada documento(título, palabras clave y breve resumen) puede ser adecuada para informes técnicospero probablemente no sea suficiente para documentos heterogéneos como los queexisten en la Web.

Filtrado y recuperación de información mediante agentes (Amalthea)Amalthea (Moukas, 1996) consiste en una ecología de agentes en la línea de

(Baclace, 1991 y 1992) y (Menczer et al, 1995). En esta propuesta existen dos tipos deagentes, uno para localizar nuevos recursos y otro para filtrar la informaciónobtenida. Los agentes de cada tipo compiten entre sí por unos recursos limitados (elcrédito otorgado por el usuario al satisfacer sus necesidades) y evolucionan segúnun algoritmo genético. La información se presenta al usuario en forma de resumende varios servicios Internet (Web, USENET News, etc.) y éste debe valorarla deforma explícita (a fin de poder dar crédito o penalizar a los agentes).

Amalthea aglutina varias ideas atractivas presentes en proyectos anteriores,una es el citado esquema competitivo basado en un sistema de crédito, otra es laobtención de información desde varios servicios Internet como en el caso de(Etzioni y Weld, 1994). Sin embargo, vuelven a apreciarse aquí limitaciones que yason reincidentes en este tipo de proyectos: reducir el análisis de los contenidos auna extracción de palabras clave o la necesidad de obtener una valoración explícitadel usuario.

1 IDIoMS fue probado en BTexact, Concert y Laboratorios Fujitsu; por tanto sus usuarios estaban muy motivados paracomportarse de forma altruista además de tener la motivación extra (y egoista) de dar información de calidad paraobtener resultados también de calidad (Starr et al, 1996).


21

Alerta de cambios en la Web (Do-I-Care)Do-I-Care (Starr et al, 1996) presenta un sistema desarrollado para avisar a

un usuario de cambios en un conjunto de páginas web seleccionadas por él mismo.El principal interés de esta contribución no radica, sin embargo, en el sistemadesarrollado sino en ser una de las primeras contribuciones que reconoce ladificultad para conseguir que los usuarios se involucren y den valoracionesexplícitas sobre las recomendaciones que reciben:

“Los esfuerzos colaborativos para descubrir recursos en Internet, como páginas webinteresantes, requieren un esfuerzo por parte de los usuarios. Desafortunadamente,los usuarios a menudo no hacen ese trabajo extra y altruista, provocando el fracasode los sistemas de filtrado social. (Starr et al, 1996)”

La solución que se propone, curiosamente, sigue requiriendo valoraciónexplícita, sus autores suponen que al ser preciso para conseguir información deutilidad los usuarios colaborarán con el sistema. Desgraciadamente, el autor opinaque, aún cuando sea en beneficio propio, la mayor parte de los usuarios serán losuficientemente perezosos como para abandonar el uso de un sistema semejante.

Recomendación de enlaces (Syskill & Webert)Syskill & Webert (Pazzani et al, 1996) es un agente similar en muchos

sentidos a Letizia (Lieberman, 1995) o PowerScout (Lieberman et al, 2001). Requiereuna valoración explícita de documentos por parte del usuario para construir, apartir de los documentos valorados positivamente, un perfil del usuario. Dichoperfil puede utilizarse para recomendar enlaces dentro del documento que estáexplorando el usuario (comportamiento parecido al de Letizia) o para realizarconsultas sobre Lycos (como PowerScout). Las críticas que se pueden hacer a estapropuesta son las ya habituales: dependencia de una valoración explícita de losdocumentos (siendo ésta, además, muy simplista –ver Fig. 10) y de un buscadorexterno (con los conocidos problemas de relevancia de los documentos).

Fig. 10 Syskill & Webert requería evaluación explícita (Pazzani et al, 1996).


22

Recuperación de información empleando conceptos (MUSAG)MUSAG (Goldman et al, 1996) es uno de los primeros intentos de abandonar

la técnica de las palabras clave para la búsqueda de información en la Web. Elprototipo utiliza dos agentes, MUSAG y SAg. El primero tiene como finalidadgenerar diccionarios “conceptuales”; estos diccionarios agrupan las palabras queemplea el usuario en sus búsquedas, con palabras que aparecen en los documentosresultado de la búsqueda. El segundo, SAg, emplea el diccionario para expandir lalista de palabras clave proporcionada por el usuario y obtener documentos en losque aparecen palabras del diccionario correspondientes a la consulta original.

Esta iniciativa presenta aspectos innovadores en la búsqueda deinformación en la Web, como la utilización de un diccionario que, en cierta medidarecuerda la técnica de alias propuesta en (Furnas et al, 1987). Sin embargo, losdiccionarios son simples tablas de expresiones asociadas a una palabra y no seestablece ningún tipo de jerarquía conceptual. Además, el único criterio derelevancia es la presencia de palabras del diccionario en el documento sin tener encuenta los posibles intereses o necesidades del usuario.

Recomendación de documentos (Fab)Fab (Balabanovic y Shoham, 1997) era un sistema de agentes que

recomendaba páginas web mediante un sistema híbrido que combinabacolaboración entre usuarios y análisis automático de contenidos. Son dos las críticasfundamentales que se pueden hacer a este proyecto: por un lado, la colaboraciónrequería una participación activa de los usuarios mediante la calificación de laspáginas. Por otro, el análisis de contenidos no era semántico sino que utilizatécnicas tradicionales de recuperación de información, es decir, métodos puramenteléxicos.

Balabanovic introduce el concepto de usuario “parásito” (Balabanovic,1997), aquel que se aprovecha de la experiencia de los demás pero no comparte lapropia. Se trata de uno de los primeros documentos en reconocer explícitamenteesto como un problema en los sistemas de recomendación basados en valoraciónexplícita, por otro lado también advierte sobre estas peticiones del sistema alusuario.

“Finalmente, hay un problema común a la mayoría de sistemas de recomendación -obtener feedback [valoraciones] del usuario. Valorar documentos es una tareaengorrosa para los usuarios, así que cuantas menos valoraciones se requieran,mejor. (Balabanovic y Shoham, 1997)”

Posteriormente (Balabanovic, 1998), Fab sería dotado de un sistema paradeterminar de manera implícita los distintos temas de interés del usuariopermitiéndole a éste, mediante un interfaz gráfico, determinar visualmente laimportancia relativa de cada tópico. Resulta interesante, la evolución deBalabanovic respecto a las valoraciones implícitas:

“En escenarios típicos, los usuarios proporcionan feedback explícito sólo aregañadientes [...] por tanto, no es razonable imponer una carga extra a usuariosque ya intentan reducir su sobrecarga de información. Por tanto, el primer objetivoes aprender a recomendar documentos apropiados utilizando solamente feedbackimplícito. (Balabanovic, 1998)”


23

Fig. 11 Interfaz para Fab.

Este interfaz permitía al usuario indicar sus intereses,en este caso “Business news” y “Health”(Balabanovic, 1998).

Recomendación de información medianteredes sociales

Referral Web (Kautz et al, 1997)propone un sistema de recomendación deinformación basado en redes sociales.Cuando un usuario se registra, el sistemabusca información sobre él o ella en la Webempleando un buscador tradicional(Altavista), asociando al usuario con aquellaspersonas que aparecen mencionadas conmás frecuencia a su alrededor. Este procesose repite recursivamente una o dositeraciones más a fin de establecer la redsocial del usuario. Posteriormente, lainformación que se recomienda a cadapersona es extraída de documentosgenerados por miembros de su red social opróximos a la misma.

El concepto es llamativo pero depoca utilidad para el usuario medio. Tal vezsea útil para su uso por parte deinvestigadores, sin embargo, difícilmentepodrá recomendar información que se salgade su “círculo de conocidos”.

Otras iniciativas (GroupLens, Siteseer, AntWorld)GroupLens (Konstan et al, 1997) describe un sistema que demuestra que la

utilización del tiempo de lectura de un documento como sistema de evaluaciónimplícita permite obtener recomendaciones similares a las producidas empleandovaloración explícita.

Siteseer (Rucker y Marcos, 1997) es un proyecto bastante sencillo pero queseñala un par de puntos interesantes. El sistema tomaba los bookmarks de un usuarioy su estructuración como un indicativo de sus intereses y las relaciones semánticasque establecía entre los mismos. Para realizar recomendaciones, se comparaban losintereses de cada usuario con los del resto y se le aconsejaba visitar documentospresentes en los bookmarks de otros usuarios pero ausentes entre los suyos.

AntWorld (Kantor et al, 2000) es un proyecto que trata de ayudar a losusuarios a encontrar la información que buscan aprovechando la experiencia yvaloraciones de anteriores usuarios del sistema. Como casi todas las propuestasrevisadas, los desarrolladores de AntWorld piensan que la valoración de losdocumentos debe ser activa por parte del usuario y se muestran escépticos sobre laobtención pasiva de dicha valoración aunque señalan algunos aspectos que parecenindicar que no la han descartado.

Por lo que se refiere al análisis de contenidos, utilizan una técnica quecombina palabras clave con una teoría propia (LAD, Logical Analysis of Data) quepermite extraer reglas lógicas a partir de las evaluaciones de los usuarios. La idea esobtener, mediante LAD, a partir de una consulta el conjunto de reglas lógicas que


24

mejor la describen y aplicarlo a las descripciones de los documentos para obtenerrecomendaciones adecuadas.

La Web SemánticaLas iniciativas descritas han tratado de resolver la sobrecarga de

información de los usuarios aunque sin mucho éxito. Esto no es excesivamentesorprendente teniendo en cuenta que la mayor parte de las propuestas insisten encargar a un usuario ya saturado la tarea de evaluar los resultados que se le ofrecen.Además, las iniciativas que prestaron atención a los contenidos se limitaron atrabajar con palabras clave extraídas automáticamente de los documentos, algo que,como ya se ha dicho innumerables veces, sólo proporciona una solución limitada.

Así pues, la Web ha cumplido una década y existe un problema palpablepara recuperar información relevante sin un esfuerzo considerable. Gran parte deeste problema puede achacarse, sin duda, a los continuos intentos de amoldartécnicas de recuperación de información diseñadas para sistemas locales a unsistema de ámbito mundial y con un crecimiento exponencial.

Obviamente, estos intentos no funcionan como se esperaba y, aunque elaprovechamiento de algunas características específicas de la Web ha permitido eldesarrollo de buscadores más eficientes, el continuo crecimiento del número dedocumentos pesa cada vez más sobre la precisión de las búsquedas y los usuariossiguen bajo una avalancha de información que son incapaces de aprovechar.

Sean éstos u otros los motivos, lo cierto es que en 1998 Tim Berners-Leecomenzó a esbozar el concepto de Web Semántica. La idea básica que subyace aesta propuesta es la de marcar los documentos disponibles en la Web mediante“etiquetas semánticas” que proporcionarían metainformación sobre el textomarcado (p. ej. profesión, número de teléfono, dirección postal, etc.)

Los textos así etiquetados serían procesados de forma sencilla por agentessoftware (p. ej. un agente podría buscar los números de teléfono de todos losdentistas de una ciudad determinada) que, de esta forma, podrían procesarinformación de una manera desconocida hasta el momento (establecer relacionesentre conceptos, realizar inferencias, etc.)

En cierto sentido, esta idea es muy similar a la de los “nodos conceptuales”descritos en la propuesta original de la Web (Berners-Lee, 1989) y, al igual que condichos nodos, el quid de la cuestión radica en la forma de proporcionar esasetiquetas semánticas e indicar las relaciones entre las mismas. Para realizar estalabor se ha optado por la utilización de ontologías y lenguajes ontológicos.

“Una ontología es la especificación de una conceptualización. Esto es, unadescripción de los conceptos y relaciones que pueden existir para un agente o unacomunidad de agentes (Gruber, 1993).”

Durante los últimos cinco años investigadores de todo el mundo hantratado de dar forma a esta idea. A continuación se revisarán los pasosfundamentales que se han ido dando hacia la construcción de dicha WebSemántica.


25

TecnologíaPropuesta

AgentesFiltrado

colaborativoRecomendaciónpor contenidos

ObjetivoValoración

usuarioPerfiles de

usuario

Baclace, 1991 y1992

EcosistemaPonderaciónvaloraciones

usuariosPalabras clave Filtrado de

informaciónExplícita

Implícito a partirde las

valoraciones

Morita yShinoda, 1994

- - SubcadenasFiltrado deinformación(USENET)

ImplícitaImplícito a partir

de lasvaloraciones

Maes, 1994 Asistente X -

Filtrado deinformación

(correo yUSENET)

Explícita Explícito

Menczer et al,1995

Ecosistema - Palabras claveRecuperación deinformación en

WebExplícita -

Letizia(Lieberman,

1995)Asistente - Palabras clave

Recomendacióndinámica deenlaces en

entorno local

Implícita -

Magi (Payne yEdwards, 1995)

Asistente -

El agente aprendereglas de

manipulación delcorreo del usuarioy las aplica sobre

el correo entrante

Filtrado deinformación

(correo)Implícita Implícito

LIRA(Balabanovic,

1995)Asistente - Palabras clave Recomendación

de enlacesExplícita -

WebWatcher(Armstrong,

1995)Asistente Similar -

Recomendaciónde enlaces en un

sitio webExplícita -

Jasper(Davies et al,

1995)Asistente

Cuando unusuario

introduce unnuevo recursose avisa a otros

usuariospotencialmente

interesados

Palabras clave,anotación de

usuario y resumenautomático

Recuperación yrecomendaciónde informaciónalmacenada por

los usuarios.

Los usuarios novaloran los

documentos,sino que en suutilización de

Internetalmacenan los

recursos que lesinteresan

Implícito a partirde la información

almacenada

Amalthea(Moukas, 1996)

Ecosistema - Palabras clave Filtrado deinformación

Explícita -

Do-I-Care(Starr et al,

1996)- X -

Aviso decambios en

recursosinteresantes

Explícita

Cada usuarioindica aquellosrecursos cuyoscambios quiere

conocerLAW

(Edwards et al,1996)

Asistente - Palabras claveRecomendación

dinámica deenlaces

Implícita -

MUSAG(Goldman et al,


Expandirconsultasmediante

diccionarios“conceptuales”

- -

Syskill & Webert(Pazzani et al,


Recomendacióndinámica deenlaces en

entorno local.Generación de

consultas (Lycos)

Explícita

Implícito a partirde los

documentosvalorados

positivamente

Fab(Balabanovic yShoham, 1997)

Ecosistema X Palabras clave Recomendaciónde páginas web

ExplícitaImplícito a partir

de lasvaloraciones

AntWorld(Kantor et al,

2000)- X

Palabras clave yLAD (Logical

Analysis of Data)

Recuperación deinformación en la

WebExplícita -

PowerScout(Lieberman et al,

2001)Asistente -

Generación deconsultas

mediante palabrasclave

Recomendacióndinámica de

enlacesImplícita Explícito asistido

Tabla 2 Comparativa entre distintas iniciativas para solucionar la “sobrecarga de información”.


26

pre-Web SemánticaSHOE (Luke et al, 1996) es una de las primeras iniciativas destinadas a

proporcionar un lenguaje de marcado semántico. Se trata de una extensión dellenguaje HTML que permite desarrollar ontologías y utilizar las clases y relacionesdefinidas en una o más de esas ontologías para marcar zonas específicas de undocumento HTML.

Luke et al describen así mismo una herramienta, Exposé, que explora la Weben busca de páginas anotadas con SHOE y almacena los asertos que encuentra enuna base de conocimiento. Dicha base de conocimiento puede utilizarseposteriormente para realizar consultas.

<HTML><HEAD><META HTTP-EQUIV="SHOE" CONTENT="VERSION=1.0">

</HEAD>

<BODY>

<ONTOLOGY ID="cs-dept-ontology" VERSION="1.0">

<USE-ONTOLOGY ID="base-ontology" VERSION="1.0" PREFIX="base"URL="http://www.cs.umd.edu/projects/plus/SHOE/base.html">

<DEF-CATEGORY NAME="Organization" ISA="base.SHOEEntity"><DEF-CATEGORY NAME="Person" ISA="base.SHOEEntity"><DEF-CATEGORY NAME="Publication" ISA="base.SHOEEntity">

<DEF-RELATION NAME="member"><DEF-ARG POS="FROM" TYPE="Organization"><DEF-ARG POS="TO" TYPE="Person">

</DEF-RELATION>

<DEF-RELATION NAME="publicationAuthor"><DEF-ARG POS="FROM" TYPE="Publication"><DEF-ARG POS="TO" TYPE="Person">

</DEF-RELATION>

<DEF-RELATION NAME="publicationDate"><DEF-ARG POS="FROM" TYPE="Publication"><DEF-ARG POS="TO" TYPE=".DATE">

</DEF-RELATION>

</ONTOLOGY>

</BODY></HTML>

Fig. 12 Ontología expresada en SHOE.

WebKB (Craven et al, 1998) tenía como objetivo construir, de formaautomática, una base de conocimiento que reflejase el contenido de la Web de unaforma inteligible para una máquina. Para lograr esto el sistema debía recibir unaontología que describiese las clases y relaciones, así como un conjunto dedocumentos, etiquetados sobre la base de esa ontología, que servirían comoconjunto de entrenamiento. Así, tras un período de entrenamiento adecuado, elsistema sería capaz de procesar documentos HTML y producir documentosmarcados semánticamente de acuerdo a la ontología de partida.

Ontobroker (Fensel et al, 1998) es una iniciativa muy similar a SHOE (Luke etal, 1996) puesto que propone una serie de herramientas para definir ontologías,etiquetar documentos basándose en dichas ontologías y realizar consultas einferencia sobre una base de conocimiento.

Posteriormente Ontobroker evolucionaría hacia On2broker (Fensel et al, 1999)cuya principal novedad fue la utilización de tecnologías como XML (Bray et al,2000) o RDF (Lassila y Swick, 1999); la última de las cuales será revisada másadelante.


27

Fue probablemente esa mayor estandarización, junto con un importanterespaldo económico1, la causa última del triunfo sobre SHOE de On2broker ytecnologías afines como OIL, que estudiaremos posteriormente.

La Web SemánticaSe han calificado las iniciativas anteriores como preWebSemántica puesto

que aunque aún no se había acuñado el término “Web Semántica” todas estaspropuestas mostraban cualidades muy similares a las que la Web Semántica segúnBerners-Lee debía tener.

En 1998 Tim Berners-Lee publica sus primeras ideas (Berners-Lee, 1998)sobre la Web Semántica. Ésta sería una capa construida sobre la Web actual quepermitiría a los agentes software procesar la información de forma semántica, estoes, descubriendo conocimiento antiguo e infiriendo conocimiento nuevo a partir deéste.

Berners-Lee considera que son necesarias varias capas para lograr esteobjetivo, siendo las principales un sistema para establecer asertos –RDF (Lassila ySwick, 1999), un modelo para definir nuevas propiedades y relaciones –RDF Schema(Brickley y Guha, 2000)– y una capa lógica –que permitiría inferencia y consultas.

Posteriormente (Berners-Lee et al, 2001), se presentaría una visión máselaborada de la Web Semántica en la que las ontologías cobran un protagonismosimilar al que tenían en SHOE (Luke et al, 1996), WebKB (Craven et al, 1998) uOn2broker (Fensel et al, 1999).

<HTML><HEAD><META HTTP-EQUIV="SHOE" CONTENT="VERSION=1.0"><TITLE> Página de Tim Berners-Lee </TITLE>

</HEAD>

<BODY><P> Esta es la página web de Tim Berners-Lee.<P> Soy miembro del Consorcio W3C.<P> Yo inventé la Web, no Al Gore,<A HREF="http://www.w3.org/History/1989/proposal.html">ésta es laprueba</A>.

<INSTANCE KEY="http://www.w3.org/People/Berners-Lee/">

<USE-ONTOLOGYID="cs-dept-ontology"URL="http://www.cs.umd.edu/projects/plus/SHOE/onts/cs.html"VERSION="1.0"PREFIX="cs">

<RELATION NAME="member"><ARG POS=FROM VALUE="http://www.w3.org"

</RELATION>

<RELATION NAME="cs.name"><ARG POS=TO VALUE="Tim Berners-Lee">

</RELATION>

<RELATION NAME="publicationAuthor"><ARG POS=FROMVALUE="http://www.w3.org/History/1989/proposal.html">

</RELATION>

</INSTANCE>

</BODY></HTML>

Fig. 13 Documento HTML anotado mediante la anterior ontología SHOE (ver Fig. 12).

RDF (Lassila y Swick, 1999) es una recomendación del W3C que da soportepara la descripción de recursos accesibles mediante la Web, las relaciones entreellos y un vocabulario XML para la serialización de esta información. Lametainformación descrita mediante RDF puede ser fácilmente procesada e

1 On2broker se desarrolló dentro de On-To-Knowledge, un proyecto de la Unión Europea que tiene como objetivodesarrollar métodos y herramientas para explotar el potencial de las ontologías en el campo de la gestión delconocimiento (http:// www.ontoknowledge.org/).


28

intercambiada por agentes software. Sin embargo, aunque RDF puede utilizaratributos y relaciones, no cuenta con ningún mecanismo para declararlos; esta tareacorresponde a RDF Schema (Brickley y Guha, 2000) que emplea RDF.

Pronto quedó claro que tanto RDF como RDF Schema, aunque podían sentarlas bases de la Web Semántica, no eran capaces, por sí solos, de modelar ontologías.Así, (Staab et al, 2000) describen la forma de extender RDF(S) para proporcionarsoporte ontológico de forma muy similar a OIL (Horrocks et al, 2000).

OIL es un producto del proyecto On-To-Knowledge, un estándar para ladefinición e intercambio de ontologías. OIL extiende RDF Schema y permite ladefinición de clases, relaciones, así como la posibilidad de realizar inferencia.

Posteriormente, OIL se integró con DAML-ONT (otro lenguaje ontológico1)para dar lugar a DAML+OIL (van Harmelen et al, 2001) que ha sido propuestocomo un estándar del W3C para representación de ontologías y metainformación.

<?xml version=“1.0” encoding=“utf-8”><?xml:namespace ns=“http://www.w3.org/RDF/RDF” prefix=“RDF”><?xml:namespace ns=“http://purl.org/RDF” prefix=“dc”><RDF:RDF><RDF:Description href=“http://www.lanas.com”><dc:creator>Juan Lanas</dc:creator>

</RDF:Description></RDF:RDF>

Fig. 14 Un aserto expresado en RDF.

Juan Lanas es el autor de http://www.lanas.com.

Recuperación de información en la Web SemánticaLa Web Semántica aún no está lo suficientemente extendida como para

proporcionar motores de búsqueda comparables a los existentes en la Web“tradicional”. Sin embargo, se han propuesto varias arquitecturas para facilitar larecuperación de información en la Web Semántica; a continuación se revisaránalgunas de las más interesantes.

Metalog (Marchiori y Saarela, 1998) es un lenguaje parecido al inglés quepermite expresar hechos, reglas y consultas sobre metainformación RDF. Estasacciones pueden expresarse, además de en el propio lenguaje de Metalog, en RDF omediante algún lenguaje de programación lógica. Así, Metalog permitiríaprogramar sobre la Web Semántica para inferir conocimiento nuevo a partir de losmetadatos disponibles.

Existen otras iniciativas similares para realizar consultas sobre RDF, p. ej.SquishQL (Brickley y Miller, 2000) que permite realizar consultas con una sintaxissimilar a la de SQL o SiLRI (Decker et al, 1998), un motor de inferencia que aplica unsubconjunto de la lógica de marcos a RDF.

Hasta donde sabe el autor, sólo existe una iniciativa para realizar consultassobre RDF Schema: RQL/Sesame (Karvounarakis et al, 2001) y (Kampman y vanHarmelen, 2001) que permite consultar datos RDF y RDF(S) mediante un lenguajefuncional.

Por lo que respecta a DAML, (Denker et al, 2001) hacen una propuesta muysimilar a las anteriores puesto que se trata de emplear un lenguaje para hacerconsultas a un motor de búsqueda DAML (DAML-S) que retornaría, comoresultados, entidades RDF.

1 DAML (DARPA Agent Markup Language) es un programa DARPA similar al proyecto On-To-Knowledge. El principalobjetivo de DAML es el desarrollo de lenguajes y herramientas para facilitar la implementación de la Web Semántica(http://www.daml.org/).


29

select ?name, ?title, ?identifierwhere(dc::title ?paper ?title)(dc::creator ?paper ?creator)(dc::identifier ?paper ?uri)(foaf::name ?creator ?name)(foaf::mbox ?creator mailto:[email protected])using dc for http://purl.org/dc/elements/1.1/foaf for http://xmlns.com/foaf/0.1/

Fig. 15 Consulta SquishQL.

Encontrar el nombre de la persona cuya dirección de correo electrónico es [email protected] y encontrar, además, eltítulo e identificador de cualquier publicación suya.

En cuanto a otros proyectos como SHOE, OIL, etc., todos ellos dependen dealgún tipo de lenguaje de consulta el cual, a su vez, descansa sobre una o másontologías. Por ello, a pesar de las diferencias sintácticas o arquitectónicas, los“motores de búsqueda” de la Web Semántica pueden verse como un tipo demotores de inferencia que reciben consultas expresadas en términos de una o másontologías y retornan como resultado elementos pertenecientes a las mismas.

Fig. 16 Interfaz debúsquedas para SHOE.

Los desarrolladores de SHOEhan construido una interfazgráfica para un “motor debúsqueda” que localizainformación en documentosetiquetados empleando SHOE.Obsérvese que el usuario debeseleccionar, en primer lugar,una ontología. A continuaciónuna clase de dicha ontología y,por último, especificar valorespara propiedades de la clase. Elbuscador localiza páginas webmarcadas mediante esaontología que satisfacen laconsulta.

Críticas a la Web SemánticaComo se puede ver, la Web Semántica depende totalmente de las

ontologías, razón por la cual se están dedicando grandes esfuerzos tanto a laconstrucción automática de ontologías (Maedche y Staab, 2000) o (Clerkin et al,2001) como al marcado semántico de los documentos (Erdmann et al, 2001). Estadependencia es la causa de las dos críticas principales que se pueden hacer a la WebSemántica.

En primer lugar, aunque es posible emplear distintas técnicas para acelerarel desarrollo de ontologías y facilitar el marcado semántico de documentos, laconstrucción de ontologías realmente útiles con gran número de clases y derelaciones entre las mismas requerirá siempre supervisión humana:

“La evaluación demostró que aunque nuestra propuesta es demasiado frágil para eldescubrimiento totalmente automático de relaciones conceptuales no taxonómicas,es muy adecuada para ayudar al ingeniero ontológico al proponer relacionesconceptuales mientras modela la ontología. (Maedche y Staab, 2000)”

En segundo lugar, las ontologías que se vienen desarrollando y el tipo deconsultas que mejor puede resolver la Web Semántica son metasemánticas más quesemánticas. Es posible, por ejemplo, desarrollar una ontología que describa lainvestigación académica y permita encontrar artículos con un autor y un coautordeterminados (metasemántica). No obstante, esa ontología difícilmente podrá


30

ofrecer un artículo que compare la Web Semántica con la Web Cooperativa a menosque ambos términos figuren en el título o en el resumen (lo cual no es muydiferente de las búsquedas tradicionales en la Web).

En resumen, la Web Semántica y sus ontologías pueden facilitar muchísimoel procesamiento de información en entornos bien definidos (publicacionescientíficas, comercio electrónico, etc.) así como la construcción de agentes capacesde deducir nuevos conocimientos en semejantes entornos. Sin embargo, estremendamente difícil aplicar los conceptos de la Web Semántica a la Web en sutotalidad.

Document

Abstract

Publication

ArticleBookArticleConferencePaperJournalArticleWorkshopPaper

Book

PeriodicalJournalMagazineNewsletter

Proceedings

TechnicalReport

ThesisDoctoralThesisMastersThesis

Fig. 17 Fragmento de una ontología (Heflin, 2000)

Esta ontología tiene como finalidad facilitar el marcado semántico dedocumentos que hacen referencia a publicaciones científicas. Elcontenido del artículo no puede ser etiquetado en modo alguno y elresumen (Abstract) se incluye como texto plano. Así pues, es posiblerealizar consultas que localicen artículos escritos por una serie deautores determinados o que se hayan presentado en un congreso enparticular pero no recuperar documentos en relación a un temaespecífico. Como ya se ha dicho, las ontologías proporcionanmetasemántica pero no verdadera semántica.


31

1.3. La Web Cooperativa

inguna de las iniciativas anteriores es apta para dotar de semántica a todala Web de forma global y de manera automática. Algunas de ellas tienenen consideración al usuario pero requieren una participación consciente y

voluntaria en el proceso de valoración de la información. Por otro lado, la mayorparte de soluciones no pueden abordar el procesamiento de documentosindependientemente del idioma en que estén escritos.

Por lo que se refiere a la Web Semántica, al señalar sus fundamentostambién se han indicado algunas limitaciones que dificultarán su aplicación a laWeb de manera global y automática.

En opinión del autor, los problemas aquí señalados (participación de losusuarios, valoración implícita, independencia del idioma o funcionamiento nosupervisado) no son independientes sino que están interrelacionados entre sí yafectan de manera importante al aprovechamiento que se puede obtener de la Webcomo fuente de información. Por ello, se propone una posible solución mediante ladenominada Web Cooperativa que se sustenta en tres puntos básicos:

- La utilización de conceptos, generados automáticamente, como puntointermedio entre las ontologías y las palabras clave.

- La clasificación de documentos en una taxonomía a partir de talesconceptos.

- La cooperación entre usuarios, en realidad, entre agentes que actúan enrepresentación de los usuarios y que no requieren su participaciónexplícita.

Conceptos frente a palabras claveLa recuperación de información mediante palabras clave utilizada por los

actuales motores de búsqueda plantea dos graves problemas: una tasa derecuperación excesiva y una precisión relativamente baja. La utilización deontologías puede mejorar la precisión en algunos casos. Sin embargo, desarrollarontologías que den soporte a cualquier consulta concebible en la Web supondría unesfuerzo inabordable.

Existe, sin embargo, una posibilidad intermedia: la utilización de conceptos.Un concepto sería una entidad más abstracta y, por tanto, con mayor cargasemántica que una palabra clave. No obstante, no requeriría “artefactos” complejoscomo lenguajes ontológicos o sistemas de inferencia. Un concepto podría serconsiderado como un grupo de palabras con un significado similar, o relacionado,dentro de un ámbito determinado ignorando tiempo, género y número. Porejemplo, en un área del conocimiento podría existir el concepto (ordenador,máquina, servidor) mientras que en otro existiría (actor, actriz,artista, celebridad, estrella).

Los conceptos, así entendidos, serían útiles si permiten proporcionarsemántica de forma análoga a las ontologías y, simultáneamente, son generados yprocesados automáticamente como las palabras clave. El autor tiene puestas

N


32

grandes esperanzas en las técnicas de Semántica Latente1 (Foltz, 1990) o deindexación de conceptos (Karypis y Han, 2000). En la siguiente sección seexaminará la forma en que es posible obtener semántica a partir de conceptos sinemplear ningún soporte ontológico.

Taxonomías de documentosPara dotar de significado a un documento, la Web Semántica precisa una

ontología que defina una serie de términos y relaciones entre los mismos. Dichostérminos son utilizados para etiquetar diferentes partes del documentoproporcionando así un “marcado semántico”. La Web Cooperativa, por su parte,pretende utilizar el texto completo del documento, sin ningún tipo de etiquetado,como fuente de semántica. ¿Es esto posible sin “comprender” el significado deltexto? A lo largo de esta sección se presentará una forma de procesar lenguajenatural para obtener, de manera totalmente automática, una clasificaciónconceptual de documentos.

Un documento puede considerarse como un individuo de una población.Entre los seres vivos un individuo está definido por su genoma, el cual se componede cromosomas que se dividen en genes construidos a partir de bases genéticas. Deforma similar, los documentos están compuestos por pasajes que se dividen ensentencias construidas mediante conceptos. Siguiendo esta analogía resulta obvioque dos documentos estarán semánticamente relacionados si sus respectivos“genomas” son similares y resulta así mismo evidente que grandes diferenciasentre dichos “genomas” implicarían una relación semántica baja.

El autor considera que esta analogía puede ser puesta en práctica y que esposible adaptar algoritmos empleados en biología computacional al campo de laclasificación de documentos. Simplificando mucho, estos algoritmos se limitan atrabajar con largas cadenas de caracteres que representan fragmentos del genomade individuos de la misma o de distintas especies. Individuos o especies similaresmuestran similitudes en sus códigos genéticos de tal forma que es posible mostrarla relación existente entre individuos y especies en taxonomías o dendrogramas2 sinla necesidad de conocer, o lo que es lo mismo, comprender, la función de cada gen.

Estos dendrogramas permiten, en cierto modo, agrupar a las distintasespecies en “categorías”; dichas “categorías” aportan información muy útil paracomprender la evolución de las especies y, en muchas ocasiones, confirman (y enotras refutan) el sistema de clasificación de las especies clásico, basado en el sistemalinneano.

Este sistema establece los grupos taxonómicos sobre la base decaracterísticas observables en los seres vivos, es decir, su fenotipo. Losdendrogramas, sin embargo, establecen los distintos grupos basándose en elgenotipo de las especies. El fenotipo depende del genotipo pero también estáinfluenciado por el ambiente y por la interacción entre éste y el genotipo. Por estarazón, categorías obtenidas de forma automática a partir de la bioquímica de las

1 (Foltz y Dumais, 1992) describen una experiencia en la que se combinan dos técnicas diferentes para describir losintereses de un grupo de usuarios (palabras clave y valoración de documentos) y dos técnicas de recuperación deinformación (búsqueda por palabras clave y semántica latente); la combinación que mejores predicciones produjo fue lasemántica latente combinada con valoración de documentos.2 Un dendrograma es una representación gráfica de un proceso de agrupamiento que muestra las relaciones entre unaserie de grupos. Puede verse un dendrograma como un árbol jerárquico, donde los grupos de la misma rama están másrelacionados entre sí que con grupos de otras ramas.


33

especies pueden parecerse extraordinariamente a aquellas otras establecidasmediante un criterio de clasificación consciente e inteligente1.

De forma análoga, los documentos podrían ser clasificadosautomáticamente en dendrogramas en función de las similitudes encontradas ensus respectivos “genomas conceptuales”. La importancia de semejante sistema declasificación radica en el hecho de que proporcionaría información semántica(similitudes a un nivel conceptual entre distintos documentos o entre documentos yconsultas de usuario) sin utilizar ningún tipo de información semántica durante elproceso de clasificación. De hecho, debería ser capaz de agrupar documentos encategorías análogas a las que establecería un ser humano independientemente de lanaturaleza del documento y del idioma en que el documento estuviera escrito.

Fig. 18 Clasificación tradicional y clasificaciónautomática basándose en el ADN mitocondrial.

Obsérvese cómo el método automático ha agrupadocorrectamente –utilizando la clasificación tradicional como “reglade oro”– especies muy similares (foca común y focagris, rorcual común y rorcual azul, vaca y oveja)y ha establecido categorías de un nivel jerárquico superior (lasdos especies de foca junto con el gato, o el caballo y elburro junto a las dos especies de rinoceronte).

El método automático ha situado una especie, hipopótamo,en una categoría más próxima a las dos especies de rorcualde lo que aparece en la clasificación tradicional (fenotípica). Porotro lado, especies muy disimilares como el ratón, elarmadillo o los humanos no han sido agrupados en ningunacategoría próxima al resto de especies, lo cual es correcto.

El método genético, sin embargo, no ha podido determinar queel armadillo pertenece a una categoría propia. Este hecho noes importante de cara a una posible utilización de estosalgoritmos como sistema de clasificación semántica dedocumentos puesto que lo fundamental es establecer relacionesentre documentos similares y separar los documentos diferentesmás que determinar el grado exacto de estas diferencias.

Datos extraídos de (Ursing y Arnason, 1998)

1 Los desarrolladores de CLEVER (Chakrabarti et al, 1998b) también plantearon la posibilidad de construir taxonomías depáginas relevantes de forma automática, sus resultados experimentales mostraban que las técnicas que empleabanproporcionaban mejores resultados que un directorio generado de forma semi-automática como Yahoo!. Sin embargo, elautor cree que es posible generar taxonomías para cualquier documento (no sólo los más relevantes) además de poderemplearse mejores indicadores de la relevancia que los empleados en CLEVER.


34

Colaboración entre usuariosYa se ha dicho con anterioridad que la Web actual no permite aprovechar

de modo alguno el conocimiento experimental que obtienen los usuarios alexplorarla. También se han estudiado algunas iniciativas de filtrado yrecomendación de información que permitían la participación de los usuarios peroobligaban a estos a valorar documentos o proporcionar información de formaexplícita. La Web Cooperativa pretende utilizar estas experiencias para extraersemántica de las mismas de forma no intrusiva y transparente para el usuario. Paraello cada usuario de la Web Cooperativa dispondría de un agente con dos objetivos:aprender de su “maestro” y recuperar información para él.

Aprendizaje de los intereses del maestroPara alcanzar este objetivo el agente debe desarrollar un perfil que describa

de forma precisa los intereses del usuario. Esta descripción se haría mediante losconceptos anteriormente descritos y se construiría a partir de los documentos que elusuario almacena en su equipo, visita con frecuencia, añade a su lista de favoritos,etc. Todo ello sin intervención explícita del usuario.

Historial

http://citeseer.nj.nec.com/http://www.cs.vu.nl/~dieter/http://www.educastur.princast.eshttp://www.cs.umd.edu/projects/plus/SHOE/http://www.fensel.comhttp://www.google.com/http://www.heloisenet.com/http://iswc.semanticweb.org/http://ksl-web.stanford.edu/KSL_Abstracts/KSL-92-71.htmlhttp://labs.google.com/http://link.springer.de/link/service/series/0558/tocs/t2342.htmhttp://www.rae.eshttp://www.w3.org/

Favoritos

A.L.I.C.E. AI FoundationExtractor DemoLexical FreeNetThe BibTeX FormatAtari Users NetworkLAPIS A Tool for Lightweight Structured Text ProcessingAnnals of Software Engineering - An International JournalKluwer Online GatewaySAAKM 02 Semantic Authoring, Annotation & Knowledge MarkupTaxonomía NuméricaA Primer on Numerical Taxonomy for Art HistoriansAn Introduction to XML Processing Using PythonThomas' Atari Projects EtherNEThe Code of the Geeks v3.12The Simon Laven Page (chatbots)

Fig. 19 Historial y lista de favoritos de un usuario.

Una vez un usuario esvinculado a un perfil esposible utilizar estainformación para dar unasemántica a los documentosde la Web que no es implícitaa los mismos sino quedepende de los usuarios. Ni laWeb actual ni la WebSemántica tienen en cuenta la“utilidad” de los documentos.Los documentos son buscadosy procesados por la utilidadque los usuarios esperanobtener de ellos. La utilidadde un documento no reside ensus contenidos sino que es un“juicio de valor” emitido porun usuario particular para undocumento específico.

La Web Cooperativa, al tener asociado cada usuario a un perfil, puedeasignar a cada par (perfil, documento) un nivel de utilidad. El agenteasignado a cada usuario sería el responsable de determinar dicho nivel de utilidad.Este proceso de evaluación, para ser verdaderamente práctico, deberíadeterminarse de una forma implícita (únicamente “observando” el comportamientodel usuario, sin necesidad de interrogarle). Por otro lado, el nivel de utilidad nosería asignado al documento como un todo sino a pasajes individuales dentro de unmismo documento1.

1 J. Allan realizó un estudio que “apoya claramente la hipótesis de que los documentos largos contienen información quediluye el feedback [la valoración del usuario]. Recortar estos documentos seleccionando un pasaje adecuado tiene unacentuado impacto en la eficiencia. (Allan, 1995).” En este caso no se reduciría un documento a un único pasaje sino quese extraería y trataría individualmente cada pasaje del texto.


35

Ya se ha visto en la “Introducción” que la mayor parte de iniciativasrelacionadas con la valoración de recursos por parte de los usuarios requieren unaparticipación voluntaria con los problemas que esto conlleva. Sin embargo, tambiénse han presentado algunas experiencias interesantes en el campo de la valoraciónimplícita que han mostrado que es factible. La segunda opción es preferible de caraa una implementación práctica y en el apartado “Método de investigaciónpropuesto” se describirá la forma en que se pretenden obtener datos empíricos paradesarrollar un prototipo de valoración implícita.

Fig. 20 Perfil de usuario extraído de los documentos anteriores (ver Fig. 19).

A partir de los documentos presentes en el historial de navegación y la lista de favoritos de un usuario será posibledeterminar sus principales temas de interés. Estos temas de interés configurarán un perfil que, con fines únicamenteilustrativos, se representa aquí como una “bolsa” de conceptos asociada a documentos representativos. Los distintostemas supondrán un porcentaje determinado del perfil del usuario y cada tema, a su vez, podrá matizar los conceptosque lo constituyen (representado aquí mediante una escala de gris).

Recuperación de información para el maestroUn agente de la Web Cooperativa tendría dos formas de obtener

información para su maestro:- Buscar información para satisfacer una consulta.- Explorar en representación del usuario para recomendarle documentos

desconocidos.Para poder llevar a cabo ambas tareas se pretende emplear dos técnicas bien

conocidas: Filtrado Colaborativo y Recomendación por Contenidos (descritos en“Contexto del problema”). En la Web Cooperativa, si el agente empleara filtradocolaborativo recomendaría al usuario documentos a los que usuarios de su mismoperfil han otorgado un elevado nivel de utilidad.

Por otro lado, si emplease recomendación por contenidos proporcionaríadocumentos relacionados conceptualmente con el perfil del usuario, con unaconsulta o con un documento de partida, independientemente del nivel de utilidadque pudieran tener asociado.


36

Los agentes de la Web Cooperativa utilizarían un híbrido de ambas técnicasya que esta forma de actuar facilita la localización de nuevos recursos en unacomunidad incipiente (Burke, 1999), aquella en la que aún no se han evaluadomuchos documentos. En el siguiente punto se presentan ejemplos ilustrativos deambos modos de funcionamiento del sistema.

Aplicaciones y limitaciones de la Web CooperativaEn esta propuesta existen dos mecanismos de recuperación de información;

el primero es comparable a los actuales motores de búsqueda mientras que el otroexploraría la Web en búsqueda de información que pudiera recomendar a losusuarios.

El primer sistema permitiría “consultas” similares a las descritas acontinuación:

- “Encuentra documentos con el término estrella”. Al tratarse de untérmino muy genérico el sistema no debería proporcionar ningúnresultado sino indicar al usuario términos relacionados con el originalen función del contexto. Así, podría ofrecer contextos que contuvieran,cada uno, conceptos como Star Wars, astronomía, cine, músicapop, etc. Obviamente, un aspecto muy importante sería la interfaz quepermitiría visualizar tales opciones.

- Encontrar documentos relacionados con una sentencia, párrafo odocumento seleccionado por el usuario. El usuario introduciría unfragmento de texto o un URI y el sistema procedería a clasificar dichainformación en una rama del árbol taxonómico retornando documentosde esa rama (o de ramas vecinas). De nuevo, en caso de que el texto departida fuera excesivamente genérico no se proporcionarían resultadossino sugerencias para refinar la búsqueda.

Por supuesto, esto es sólo un primer esbozo del sistema de búsqueda;aspectos fundamentales para el mismo serían las técnicas de visualización de datos,así como aquellas para explorar los árboles taxonómicos o ordenar los resultados enfunción del usuario.

El sistema de recomendación funcionaría de forma totalmente distinta;sería, básicamente, un asistente personal que ayudaría al usuario realizando tareascomo las siguientes:

- Buscar información en representación del usuario. El usuarioproporcionaría al agente algunas consultas como las presentadas antespara que las procesara y extrajera un conjunto reducido de resultados.

- Recomendar documentos no solicitados pero interesantes. Para llevar acabo esta tarea el asistente debería buscar documentos similares a otrosprocesados recientemente por el usuario así como intercambiarinformación con agentes similares; de esta forma sería posible satisfacerdemandas latentes de información.

Si se compara la Web Cooperativa con la Web actual y con la WebSemántica está claro que esta propuesta proporciona menos resultados que losmotores de búsqueda tradicionales aunque mucho más relevantes puesto que seestán empleando taxonomías conceptuales. Por otro lado, al obtener semántica apartir del texto completo de los documentos la Web Cooperativa permite consultasimposibles para la Web Semántica a menos que se proporcione una ontología capazde describir todos los conceptos y relaciones existentes, algo imposible en la mayor


37

parte de los casos (p. ej., ¿Sería posible desarrollar una ontología lo suficientementesutil como para describir la Informática y permitir cualquier consulta concebible?)

Por supuesto, consultas admisibles en la Web Semántica como “Encontrar elartículo más reciente sobre SHOE en el que James Hendler figure como coautor(Denker et al, 2001)” no podrían ser resueltas satisfactoriamente en la WebCooperativa. Por esa razón la Web Cooperativa se propone como complemento dela Web Semántica y no como sustituto.

WEB

Usuario

Agente Perfil de usuario

Taxonomía dedocumentos

Documentosinteresantespara el perfil

Documento

Fig. 21 Funcionamiento básico de la Web Cooperativa.

El usuario navega por la Web de la manera usual y descarga un documento , su agente observa todas sus acciones y enfunción de éstas valora el interés del documento para el usuario . Una vez evaluada la relevancia del documento, elagente actualiza el perfil del usuario en base a la nueva información , clasifica el documento en caso necesario dentrode la taxonomía de documentos (que estaría alojada en un servidor central1) y agrega el documento, en caso de que lavaloración sea positiva, a un “repositorio” de documentos de interés para el perfil del usuario que representa (también alojado en un servidor central).

1 La Web Cooperativa requiere que los agentes se comuniquen entre sí e intercambien información; la forma mássencilla de hacer esto es mediante un lugar común donde los agentes depositan la información que “descubren” yrecogen nueva información para proporcionársela a sus maestros. Es cierto que los servicios que funcionan de formatotal o parcialmente centralizada son sensibles a varios problemas graves; una solución a esto sería la implementación deun sistema distribuido que emplease las máquinas de los usuarios, sin embargo, ese tipo de implementación para la WebCooperativa queda fuera del ámbito de este trabajo.


38

Usuario

Agente

Histórico

Taxonomía dedocumentos

?

Fig. 22 Resolución de consultas y recomendación por contenidos en la Web Cooperativa.

Los agentes de la Web Cooperativa pueden resolver consultas de los usuarios además de explorar en representación delos mismos (recomendar documentos cuyos contenidos pueden ser interesantes). El agente puede examinar el históricode navegación del usuario o recibir una consulta1 . Con esta información el agente lleva a cabo una exploracióntaxonómica , es decir, clasifica dentro de la taxonomía conceptual los datos de partida y obtiene como resultadosdocumentos próximos en el dendrograma . Estos documentos son proporcionados al usuario como recomendacionesen caso de que el agente haya actuado de motu propio o como resultados de una consulta .

Usuario

Agente

Perfil de usuario

Documentosinteresantes para

el perfil

Fig. 23 Recomendación por filtrado colaborativo en la Web Cooperativa.

Los agentes de la Web Cooperativa pueden recomendar documentos de interés para el usuario basándose en laspreferencias de usuarios similares. Periódicamente, cada agente accedería a distintos repositorios en función del perfilde su maestro . De cada repositorio se obtendrían una serie de documentos potencialmente interesantes que seríanpresentados al usuario como recomendaciones .

1 Una consulta puede estar constituida por una serie de palabras clave, un fragmento de texto o el URL de undocumento completo.


39

1.4. ¿Qué NO es la Web Cooperativa?

la luz de lo visto hasta ahora es posible proporcionar una definición parala Web Cooperativa:

“La Web Cooperativa es una capa situada directamente sobre la Web actual con elfin de dotarla de semántica de manera global, automática, transparente eindependiente del idioma. Requiere la participación de los usuarios pero no de formaconsciente y directa sino indirectamente a través de agentes autónomos ycooperantes. La Web Cooperativa se apoya sobre el uso de conceptos y taxonomíasdocumentales, unos y otras pueden obtenerse, sin intervención humana, a partir deltexto libre de los documentos.”

En los apartados anteriores se ha planteado el problema, se ha situado enun contexto más amplio y se han mostrado iniciativas que han tratado de resolverloparcialmente y la forma en que éstas han inspirado y motivado al autor en lapropuesta de su tesis, la Web Cooperativa. Existen, sin embargo, distintosproyectos que no estando relacionados con esta propuesta podrían parecer,engañosamente, similares; la finalidad de este apartado es diferenciar la propuestade Web Cooperativa de estas otras.

La Web Cooperativa NO es la Web SemánticaLa Web Cooperativa pretende extraer semántica de los documentos

existentes en la Web, “clasificar” los documentos en una taxonomía o dendrogramay utilizar agentes. A la vista de esto es posible intentar compararla con la WebSemántica, sin embargo, eso sería un error puesto que las diferencias entre ambasiniciativas son enormes.

La Web Semántica requiere ontologías, sean estas construidasautomáticamente o desarrolladas por un ser humano; dichas ontologías definenclases y relaciones que permiten etiquetar documentos para, así, facilitar unproceso de inferencia a los agentes de la Web Semántica.

De este modo, en la Web Semántica hasta que un concepto no está recogidoen una ontología no existe pues no puede ser nombrado de ningún modo. Por otrolado, ya se ha comentado anteriormente que la Web Semántica, a pesar de sunombre, ofrece a la Web más metasemántica que semántica.

La Web Cooperativa, por otro lado, no emplea ontologías, sólo conceptos.Este enfoque es mucho más simple puesto que no interesa explicitar en modoalguno las relaciones entre los conceptos. Esto no quiere decir, que la WebCooperativa desconozca las relaciones entre conceptos sino que son manipuladasimplícitamente.

Como ya se dijo, cada pasaje de cada documento es una secuencia deconceptos y el autor cree que dichas secuencias conceptuales pueden ser procesadasde modo similar a como el ADN es procesado para establecer clasificaciones deseres vivos. Esta clasificación conceptual automática, en caso de ser posible, seríacapaz de separar documentos de un modo similar a como haría un ser humanodejando patentes las relaciones implícitas entre conceptos.

Por otro lado, los agentes de la Web Semántica y la Web Cooperativatendrían misiones muy distintas. Los primeros tendrían como finalidad procesardocumentos etiquetados “semánticamente” y realizar inferencias. Los segundosprocesarían documentos no etiquetados, aprenderían de sus maestros e

A


40

intercambiarían información entre ellos con el objetivo de recomendar informacióninteresante.

Por todo ello, aun cuando tanto la Web Semántica como la Web Cooperativaemplean agentes, elementos semánticos y establecen algún tipo de catalogación dedocumentos, se trata de propuestas totalmente distintas (aunque como se haseñalado anteriormente complementarias).

La Web Cooperativa NO son las categorías dmoz o Yahoo!Un aspecto vital de la Web Cooperativa es la clasificación de documentos en

taxonomías o dendrogramas. Tales dendrogramas permitirían mostrar lasrelaciones conceptuales existentes entre los documentos de forma análoga a comose visualizan las relaciones que hay entre distintas especies biológicas y deberíanobtener, de forma automática, “categorías” de documentos muy similares a las quepodría establecer un ser humano.

Estas categorías pueden recordar a las disponibles en directorios comodmoz1, looksmart2 o Yahoo!3; no obstante, aún cuando es posible un parecidosuperficial, las diferencias de fondo entre las taxonomías documentales de la WebCooperativa y las de estos directorios son notables.

Fig. 24 Directorios dmoz, looksmart y Yahoo!

Página principal de los tres principales directorios de laWeb a fecha de 20 de mayo 2002. Los tres compartenbásicamente la misma estructura de categorías yproporcionan un motor de búsqueda que puede operar, almenos, sobre los documentos indexados en el directorio.

Recuérdese que la propuesta que se plantea en este trabajo pretende generarde forma totalmente automática, no supervisada e independiente del idioma una omás taxonomías para los documentos disponibles en la Web; la estrategia seguidapor los directorios es, sin embargo, muy distinta.

Todos los directorios requieren supervisión humana tanto para la creaciónde las categorías como para la asignación de documentos a las mismas. La forma en

1 http://www.dmoz.org2 http://www.looksmart.com3 http://www.yahoo.com


41

que se llevan a cabo estas tareas varía de un directorio a otro pero, en ningún caso,pueden realizarse de forma totalmente automática.

Yahoo! y looksmartcuentan con una plantilladedicada a construir susrespectivos directorios. Estosempleados reciben sugerenciasde los usuarios de la Web paraañadir sitios web al directorio (noasí para crear nuevas categorías).Esta estrategia está muy limitaday difícilmente puede desarrollarun directorio que abarque latotalidad, o cuando menos unaparte importante, de la Web yque sea, al mismo tiempo, decalidad.

Fig. 25 Sugerencia de un nuevo sitio web para eldirectorio Yahoo!

Yahoo! permite a los usuarios sugerir nuevas entradas para sudirectorio. La primera opción garantiza “tomar en consideración”la “sugerencia” en sólo 7 días a cambio de 299 dólares (unos 320euros). La segunda opción (gratuita) no garantiza que se vaya aincluir el enlace en el directorio en ningún momento.

Además, esta forma de construir directorios tiende a “prostituirse” alpromocionar determinadas categorías o documentos dentro de una categoría acambio de una suma de dinero. Este hecho, aunque comercialmente justificable, sinduda degrada la utilidad que el directorio pudiera tener para los usuarios lo cualhace este método desaconsejable.

En el otro extremo se sitúan iniciativas como la de dmoz, también conocidocomo Open Directory Project u ODP. Se trata de un directorio desarrollado por unacomunidad de usuarios que actúan desinteresadamente, de un modo similar acomo se desarrolla el Software Libre. Cada categoría está gestionada por uno o máseditores que revisan las sugerencias enviadas por los usuarios (documentos opropuestas de nuevas categorías), proporcionan una descripción para las mismas yorganizan los documentos que aparecen en la categoría creando, en caso necesario,subcategorías.

Esta estrategia colaborativa y altruista es superior a la empleada pordirectorios comerciales como los anteriormente mencionados puesto que es másfácilmente escalable y menos susceptible a la “corrupción”. Sin embargo, a pesar desu mayor escalabilidad sigue sin poder abarcar una parte importante de la Web1.

Por tanto, aún cuando las taxonomías que se proponen para la WebCooperativa podrían coincidir en muchas ocasiones con las categorías disponiblesen directorios como dmoz o Yahoo!, en ningún caso puede establecerse similitudalguna entre ambas iniciativas: los directorios son supervisados por humanosmientras que las taxonomías de la Web Cooperativa serían obtenidas de formatotalmente automática.

La Web Cooperativa NO es la Web ColaborativaEl término elegido para la propuesta, Web Cooperativa, tal vez no haya sido

excesivamente afortunado puesto que puede llevar a confusión con algunasiniciativas calificadas, en ocasiones, como Web Colaborativa.

1 El directorio dmoz tenía indexados 3.429.012 (3,4∙106) sitios web a fecha de 28 de mayo de 2002, contando para ellocon 49.030 editores; Google tenía indexadas 2,073,418,204 páginas (2,1∙109). Teniendo en cuenta que un directorioalmacena una única página por sitio, dmoz está aún a tres órdenes de magnitud del volumen de documentos procesadospor un sistema automático como Google.


42

A diferencia de la Web Semántica que da nombre a una serie de líneas deinvestigación bien delimitadas, el término “Web Colaborativa” ha sido empleadoen varios proyectos, académicos y comerciales, que tienen poco o nada que verentre sí ni con la propuesta de Web Cooperativa. A continuación se citan algunasde las aplicaciones calificadas en una u otra ocasión como Web Colaborativa.

GroupWeb (Greenberg y Roseman, 1996) introduce el concepto denavegación colaborativa (collaborative web browsing) al presentar un sistema quepermite a varios usuarios navegar de forma conjunta (recomendarse enlaces, seguirla ruta de navegación de otro usuario, explorar de forma combinada, etc.)Posteriormente, surgieron otra serie de iniciativas muy similares. Todos estosproyectos son, sin embargo, aplicaciones para trabajo en grupo y no sistemas derecuperación de información.

Sparrow Web (Chang, 1998) fue un proyecto desarrollado en Xerox PARC quepermitía a varios usuarios modificar una página web directamente mediante sunavegador. Esta iniciativa se parece bastante a la idea de los Wikis1 y, como sepuede ver, no tiene ningún punto en común con la propuesta aquí descrita.

(Kovács y Micsik, 2000) emplean el término “Web Colaborativa” para hacerreferencia a aplicaciones web que permiten el trabajo simultáneo de variosindividuos. Sin embargo, describen aplicaciones relativamente tradicionales defiltrado colaborativo en USENET, Web y en una biblioteca digital (empleando entodos los casos valoración explícita) así como un sistema de encuestas y votaciones.

En resumen, la Web Colaborativa permite la colaboración de individuos demanera transparente ya sea para modificar documentos, explorar la Web ointercambiar información. Sin embargo, en el caso de la Web Cooperativa lasentidades que cooperan son agentes que actúan en representación de los usuarios,esta cooperación resulta transparente para el usuario que sigue empleando la Webde la manera usual.

1 Un Wiki es un sitio web donde las páginas pueden ser editadas por cualquier visitante. Cualquier usuario puede ayudara mejorar el sitio o plantear sus dudas, editando la página web, esperando que otro usuario las resuelva.


43

1.5. Método de investigación propuesto

ara demostrar si la Web Cooperativa es una solución factible para resolverlos problemas que se han señalado es necesario iniciar dos líneas deinvestigación diferentes. Una de ellas tendría como objetivo determinar un

conjunto de reglas que vinculen las acciones de un usuario sobre un documento conun índice de relevancia para el mismo. Es decir, desarrollar un sistema que deduzcael interés de un documento para un usuario dado sin su participación explícita. Laotra línea tendría como finalidad comprobar si la idea de los dendrogramas esválida y permite clasificar documentos conceptualmente de forma independientedel idioma. Puesto que se trata de áreas completamente independientes esirrelevante qué experimento se realiza en primer lugar, pudiendo tratar de hacersela investigación en paralelo.

En el caso de la valoración implícita de documentos se pretende llevar acabo un experimento que permita recabar suficiente información como para extraera partir de la misma las reglas de las que venimos hablando. Para describiradecuadamente el experimento se detallará el instrumento a emplear, la muestraque se pretende utilizar y la metodología.

El instrumento a utilizar sería un sistema (aún por desarrollar) que permitael almacenamiento de todas las acciones de un usuario sobre el navegador(activación de enlaces, scroll, secuencia de documentos explorados, tiempo delectura, etc.) Este sistema sería similar a los descritos en (Catledge y Pitkow, 1995),(Fenstermacher y Ginsburg, 2002) o (González Rodríguez, 1999).

Dada la amplitud de la población teórica (todos los usuarios de la Web) y lolimitado de los medios disponibles será prácticamente imposible conseguir unamuestra significativa. Sin embargo, es posible tomar dos muestras suficientementedispares como para determinar unas pocas reglas comunes para todos los usuarios.La primera se escogerá entre los estudiantes de la E.U. de Ingeniería Técnica enInformática de Oviedo, la segunda entre los asistentes a los talleres sobre Internetimpartidos en PUMUO (Programa Universitario para Mayores. Universidad deOviedo).

Cada usuario participante en el experimento deberá registrarse en elsistema. En ese momento se recogerán cuantos datos se crea influyan sobre suforma de navegar (edad, sexo, lateralidad, etc.) Una vez registrado el usuarionavegará de la forma habitual y se almacenarán todas sus acciones. Unas pocasveces por cada sesión de navegación se solicitará del usuario la valoración dealgunos documentos y al final de cada sesión se le pedirá que indique el documentomás interesante y el menos interesante de todos los que exploró.

Este proceso se prolongará durante el tiempo suficiente hasta haberrecogido datos suficientes. Dichos datos serán procesados para determinar, si esposible, reglas que vinculen las acciones del usuario en primer lugar con suscaracterísticas y, en segundo lugar, con la valoración otorgada a los documentos.

Una vez finalizada esta fase inicial se implementarían uno o más prototiposque emplearían las reglas deducidas. Dichos prototipos se incorporarían al sistemaoriginal y serían utilizados para proponer una valoración al usuario para algunosdocumentos. Esto tendría como finalidad comprobar el grado de acierto obtenidopor cada sistema.

P


44

Finalmente, se pretende implementar un prototipo que sería aplicado sobreotra muestra distinta para determinar, en primer lugar, si es capaz de aproximar lascaracterísticas del usuario estudiando su forma de navegar además de valorar deforma razonablemente acertada los documentos que explora el usuario. Un aspectopráctico importante sería determinar el modo de hacer el sistema suficientementeadaptable a fin de permitirle seleccionar el conjunto de reglas más adecuado paracada usuario.

Por lo que se refiere a la investigación en la construcción de dendrogramasconceptuales tendría una serie de fases bien separadas. Sin embargo, antes de nada,hay que señalar que aunque la inspiración para este sistema es biológica hay dosdiferencias fundamentales entre los genomas biológicos y los hipotéticos “genomasconceptuales”.

En primer lugar, toda la vida que se ha estudiado hasta el momentocomparte la misma bioquímica por lo que se podría clasificar todas las especies enun único árbol. Los documentos, en cambio, no pueden clasificarse en un únicoárbol, sino en un bosque donde cada árbol estaría formado por documentos escritosen un único idioma.

En segundo lugar, por el propio funcionamiento del mecanismo evolutivo,la clasificación de las especies biológicas da lugar a un árbol. Estableciendo un símilcon el paradigma de la orientación a objetos: en biología no existe herenciamúltiple. En cambio, el conocimiento humano no evoluciona de esa forma ysiempre es posible hibridar conocimientos (este trabajo sería un ejemplo) por lo quela estructura más que arbórea sería, probablemente, un grafo.

Una vez aclarado esto, se describirán las fases que creo se deben llevar acabo para determinar si el concepto de dendrograma documental es válido paraclasificar documentos conceptualmente.

En primer lugar habría que desarrollar un método que permita separarclaramente documentos escritos en idiomas distintos. Sería aceptable que semejantesistema agrupase de forma conjunta idiomas razonablemente similares.

Esta separación idiomática permitiría descubrir las distintas “bioquímicas”existentes en el conocimiento humano. Por cada idioma se podría pasar entonces adeterminar sus “bases genéticas”, es decir, sus conceptos; para ello se tieneintención de emplear, como ya se dijo, semántica latente1 o indexación deconceptos2.

Una vez se disponga de un sistema capaz de determinar el idioma de undocumento y se tenga una base de conceptos para ese idioma debería desarrollarseun prototipo que construya la taxonomía de documentos. Dicha taxonomíaagrupará, en teoría, documentos conceptualmente próximos.

Para determinar el grado de acierto del sistema se pedirá a un grupo depersonas que establezcan, primero individualmente y luego en grupo, una serie decategorías para un conjunto manejable de documentos. Las jerarquías de categoríasserían posteriormente comparadas con la obtenida automáticamente por otro grupode individuos que actuarían a modo de “agentes de Turing” tratando dedeterminar qué categoría fue generada por humanos y cual por una máquina.

1 La Semántica Latente es una teoría y un método para la extracción y representación del significado de las palabrassegún su contexto aplicando cálculos estadísticos sobre grandes volúmenes de texto. La idea subyacente es que latotalidad de la información sobre los contextos en los que una palabra aparece o no aparece proporciona un conjunto derestricciones mutuas que determinan las relaciones semánticas mutuas entre conjuntos de palabras.2 La indexación de conceptos (Karypis y Han, 2000) es, en esencia, muy similar a la técnica de semántica latente peroimplementa una serie de mejoras que le permiten escalar mejor sobre volúmenes de documentos muy grandes.


45

Obviamente, se espera encontrar muchas dificultades que irán apareciendoa medida que avance la futura investigación, alguna de las que se prevén son ladistribución en forma de grafo de la clasificación de documentos así como la formade desarrollar una taxonomía semejante de forma incremental según se vayanagregando documentos.


47

1.6. Implicaciones

n los puntos anteriores se ha planteado la existencia de un problema a todasluces interesante y se ha presentado una tesis en relación con el mismo. Esapropuesta se ha ubicado en un contexto más amplio y se ha comparado con

una serie de iniciativas argumentando las razones por las cuales puede ser másadecuada de cara a satisfacer una serie de objetivos importantes como son:

- Funcionamiento no supervisado,- participación transparente de los usuarios- e independencia del idioma.Tras presentar la propuesta se ha desarrollado un posible método de

investigación orientado a verificar empíricamente su viabilidad. En caso de que alfinal del proceso investigador la propuesta presentada se demostrase acertada, ¿quéimplicaciones podría tener? El autor cree que, al menos, las siguientes:

- Podría aplicarse de forma inmediata sobre la Web facilitando eldesarrollo de motores de búsqueda semánticos como los descritos en“Aplicaciones y limitaciones de la Web Cooperativa”.

- Favorecería el desarrollo de asistentes artificiales destinados a apoyar alos trabajadores del conocimiento1, dichos asistentes realizarían eltrabajo más arduo, “batear” grandes volúmenes de documentosfiltrándolos para localizar las “pepitas” de información.

- Podrían desarrollarse servicios P2P2 que, operando dentro de intranets,serían capaces de destilar conocimiento corporativo3 a partir de losdocumentos disponibles en los servidores de una empresa y losordenadores de sus empleados.

- La investigación desarrollada sobre sistemas de valoración implícita dedocumentos podría tener cierta repercusión dentro del campo de laInteracción Persona-Ordenador.

- Al centrarse en el procesamiento de texto obviando todas lascaracterísticas del hipertexto, la Web Cooperativa podría adaptarse aentornos distintos a la Web.

1 El término “trabajador del conocimiento” por contraposición al trabajador manual de la industria tradicional fueacuñado por Peter Drucker (Drucker, 1969).2 P2P, o peer-to-peer, hace referencia a servicios de red en los que todas las máquinas se comportan, simultaneamente,como clientes y servidores pudiendo establecer conexiones entre sí en cualquier momento para intercambiarinformación. Un ejemplo muy conocido de servicio P2P es el malogrado Napster (http://www.napster.com/).3 Una iniciativa similar a la descrita en (Davies et al, 1995), (Azarmi et al, 2001) o en (Ehrlich y Cash, 1994).

E


49

1.7. Referencias

[1] Allan, J. (1995), “Relevance Feedback With Too Much Data”, Proceedings of the ACMSIGIR Conference on Research and Development in Information Retrieval, Seattle,Washington, EE.UU.

[2] Armstrong, R., Freitag, D., Joachims, T., y Mitchell, T. (1995), “WebWatcher: A LearningApprentice for the World Wide Web”, Proceedings of 1995 AAAI Spring Symposium onInformation Gathering from Heterogeneous, Distributed Environments, Stanford,California, EE.UU.

[3] Azarmi, N., Thint, M., y Ohtani, T. (2001), “Enhancing E-Communities with Agent-BasedSystems”, IEEE Computer, Vol. 34, No. 7, pp. 64-69.

[4] Baclace, P.E. (1991), “Personal Information Intake Filtering”, Bellcore Information FilteringWorkshop, Chester, New Jersey, EE.UU.

[5] Baclace, P.E. (1992), “Competitive agents for information filtering”, Communications of theACM, Vol. 35, No. 12, pp. 50.

[6] Balabanovic, M. (1997), “An Adaptive Web Page Recommendation Service”,Proceedings ofthe First International Conference on Autonomous Agents, Marina del Rey, California,EE.UU.

[7] Balabanovic, M. (1998), “An interface for learning multi-topic user profiles from implicitfeedback”, Proceedings of AAAI Workshop on Recommender Systems, Madison,Wisconsin, EE.UU.

[8] Balabanovic, M., Shoham, Y., y Yun, Y. (1995), “An adaptive agent for automated webbrowsing”, Journal of Visual Communication and Image Representation, Vol. 6, No. 4.

[9] Balabanovic, M., y Shoham, Y. (1997), “Fab: Content-Based, CollaborativeRecommendation”, Communications of the ACM, Vol. 40, No. 3, pp. 66-72.

[10] Berners-Lee, T. (1989), “Information Management: A Proposal”,http://www.w3.org/History/1989/proposal.html (accedido 7/6/2002).

[11] Berners-Lee, T. (1998), "Semantic Web Road map",http://www.w3.org/DesignIssues/Semantic.html (accedido 14/6/2002).

[12] Berners-Lee, T., Hendler, J., Lassila, O. (2001), “The Semantic Web”, Scientific American,284(5), pp. 34-43.

[13] Bharat, K., y Henzinger, M. (1998), “Improved Algorithms for Topic Distillation in aHyperlinked Environment”, Proceedings of SIGIR-98, 21st ACM International Conferenceon Research and Development in Information Retrieval, Melbourne, Australia.

[14] Billsus, D., y Pazzani, M.J. (1998), “Learning Collaborative Information Filters”, Proceedingsof the International Conference on Machine Learning, Madison, Wisconsin, EE.UU.

[15] Bray, T., Paoli, J., Sperberg-McQueen, C.M., y Maler, E. (2000), “Extensible MarkupLanguage (XML) 1.0 (Second Edition)”, W3C Recommendation, World Wide WebConsortium, http://www.w3.org/TR/2000/REC-xml-20001006 (accedido 14/6/2002).

[16] Brickley, D., Guha, R.V. (2000), “Resource Description Framework (RDF) SchemaSpecification 1.0”, W3C Candidate Recommendation, World Wide Web Consortium,http://www.w3.org/TR/rdf-schema (accedido 14/6/2002).

[17] Brickley, D., y Miller, L. (2000), “RDF: Extending and Querying RSS channels”, ILRTdiscussion document, http://ilrt.org/discovery/2000/11/rss-query/ (accedido 14/6/2002).

[18] Brin, S., y Page, L. (1998), “The Anatomy of a Large-Scale Hypertextual Web SearchEngine”, Computer Networks and ISDN Systems, Vol. 30, No. 1-7, pp. 107-117.

[19] Burke, R. (1999), “Integrating Knowledge-based and Collaborative-filtering RecommenderSystems”, Proceedings of the AAAI Workshop on AI and Electronic Commerce, Orlando,Florida, EE.UU., pp. 69-72.

[20] Candeira, J. (2001), “La Web como memoria organizada: el hipocampo colectivo de la red”,Revista de Occidente, No. 239 (Marzo).


50

[21] Catledge, L.D., y Pitkow, J.E. (1995), “Characterizing Browsing Strategies in the World-WideWeb”, Computer Networks and ISDN Systems, 27, S., pp.1065-1073.

[22] Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P., y Rajagopalan, S.(1998a), “Automatic Resource Compilation by Analyzing Hyperlink Structure and AssociatedText”, Proceedings of the 7th World-Wide Web conference, Brisbane, Australia.

[23] Chakrabarti, S., Dom, B.E., Gibson, D., Kumar, R., Raghavan, P., Rajagopalan, S., yTomkins, A. (1998b), “Experiments in topic distillation”, Proceedings of the ACM SIGIRWorkshop on Hypertext Information Retrieval on the Web, Melbourne, Australia.

[24] Chang, B. (1998), “In-place editing of web pages: Sparrow community-shared documents”,Computer Networks and ISDN Systems, 30, 1998, pp.489-498.

[25] Clerkin, P., Cunningham, P., y Hayes, C. (2001), “Ontology Discovery for the Semantic WebUsing Hierarchical Clustering”, Semantic Web Mining Workshop, Freiburg, Alemania.

[26] Craven, M., DiPasquo, D., Freitag, D., McCallum, A., Mitchell, T., Nigam, K., y Slattery, S.(1998), “Learning to Extract Symbolic Knowledge from the World Wide Web”, Proceedingsof the 15th National Conference on Artificial Intelligence (AAAI98), Madison, Wisconsin,EE.UU.

[27] Davies, J., Weeks, R., y Revett, M. (1995), “Jasper: Communicating Information Agents forthe WWW”, Procedings of the 4th International World Wide Web Conference, Boston,EE.UU.

[28] Davison, B.D. (2000a), “Recognizing Nepotistic Links on the Web”, Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search, Austin, Texas, EE.UU.

[29] Davison, B.D. (2000b), “Topical locality in the Web: Experiments and observations”,Technical Report DCS-TR-414, Department of Computer Science, Rutgers University.

[30] Decker, S., Brickley, D., Saarela, J., y Angele, J. (1998), “A Query and Inference Service forRDF”, Proceedings of Query Languages Workshop, Boston, MA, EE.UU.

[31] Denker, G., Hobbs, J.R., Martin, D., Narayanan, S., y Waldinger, R. (2001), “AccessingInformation and Services on the DAML-Enabled Web”, Proceedings of the SecondInternational Workshop Semantic Web, Hong Kong, China.

[32] Drucker, P.F. (1969), “The Age of Discontinuity”, Harper & Row.[33] Edwards, P., Bayer, D., Green, C.L., y Payne, T.R. (1996), “Experience with learning agents

which manage internet-based information”, Proceedings of the AAA'96 Stanford SpringSymposium, Machine Learning in Information Access, Stanford, California, EE.UU., pp.31-40.

[34] Ehrlich, K., y Cash, D. (1994), “Turning Information into Knowledge: Information Findingas a Collaborative Activity”, Proceedings of Digital Libraries conference, College Station,Texas, EE.UU.

[35] Erdmann, M., Maedche, A., Scnurr, H.P., y Staab, S. (2001), “From Manual to Semi-automatic Semantic Annotation: About Ontology-based Text Annotation Tools”, ETAIJournal - Section on Semantic Web (Linköping Electronic Articles in Computer andInformation Science), 6.

[36] Etzioni, O., y Weld, D. (1994), “A softbot-based interface to the Internet”, Communicationsof the ACM, Vol. 37, No. 7, pp. 72-76.

[37] Fensel, D., Angele, J., Decker, S., Erdmann, M., Schnurr, H.P., Staab, S., Studer, R., y Witt,A. (1999), “On2broker: Semantic-based access to information sources at the WWW”,Proceedings of the World Conference on the WWW and Internet (WebNet 99), Hawai,EE.UU.

[38] Fensel, D., Decker, S., Erdmann, M., y Studer, R. (1998), “Ontobroker: Or How to EnableIntelligent Access to the WWW”, Proceedings of the 11th Workshop on KnowledgeAcquisition, Modeling, and Management, Banff, Canada.

[39] Fenstermacher, K.D., y Ginsburg, M. (2002), “A Lightweight Framework forCross-Application User Monitoring”, Computer, Vol. 35, No. 3, pp. 51-59.

[40] Foltz, P.W, y Dumais, S.T. (1992), “Personalized Information Delivery: An Analysis ofInformation Filtering Methods”, Communications of the ACM, Vol. 35, No. 12, pp. 51-60.


51

[41] Foltz, P.W. (1990), “Using Latent Semantic Indexing for Information Filtering”, Proceedingsof the ACM Conference on Office Information Systems, Boston, EE.UU., pp. 40-47.

[42] Furnas, G.W., Landauer, T.K., Gómez, L.M., y Dumais, S.T. (1987), “The vocabularyproblem in human-system communication”, Communications of the ACM, Vol. 30, No. 11,pp. 964-971.

[43] Gayo Avello, D., y Álvarez Gutiérrez, D. (2002), “The Cooperative Web: A Complement tothe Semantic Web”, Proceedings of 26th Annual International Computer Software andApplications Conference. Oxford, Inglaterra.

[44] Goldberg, D., Nichols, D., Oki, B.M., y Terry, D. (1992), “Using Collaborative Filtering toWeave an Information Tapestry”, Communications of the ACM, Vol. 35, No. 12, pp. 61-70.

[45] Goldman, C.V., Langer, A., y Rosenschein, J.S. (1996), “Musag: an agent that learns what youmean”, Proceedings of The First International Conference on The Practical Application ofIntelligent Agents and Multi Agent Technology (PAAM '96), Londres, Reino Unido.

[46] Gómez, L.M., Lochbaum, C.C., y Landauer, T.K. (1990) “All the right words: Finding whatyou want as a function of richness of indexing vocabulary”, Journal of the American Societyfor Information Sciences, Vol. 41, No. 8, pp. 547-559.

[47] González Rodríguez, M. (1999), “ANTS: An Automatic Navigability Testing Tool forHypermedia”, Proceedings of the Fifth Eurographics Workshop on Multimedia, Milán, Italia.

[48] Google, Inc. (2002a), “Google Answers: Frequently Asked Questions”https://answers.Google.com/answers/faq.html#whatis (accedido 29/5/2002).

[49] Google, Inc. (2002b), “Google Programming Contest”http://www.Google.com/programming-contest/ (accedido 29/5/2002).

[50] Greenberg, S., y Roseman, M. (1996), “GroupWeb: A WWW Browser as Real TimeGroupware”, Proceedings of ACM SIGCHI'96 Conference on Human Factors inComputing System, Vancouver, Canada.

[51] Gruber, T.R. (1993), “Toward principles for the design of ontologies used for knowledgesharing”, Proceedings of International Workshop on Formal Ontology, Padua, Italia.

[52] Heflin, J. (2000), “Document Ontology 1.0 (draft)”,http://www.cs.umd.edu/projects/plus/SHOE/onts/docmnt1.0.html (accedido 20/6/2002).

[53] Hiltz, S.R., y Turoff, M. (1983), “Avoiding Information Overload in the Electronic Office”,Proceedings of the Seventeenth International Conference on System Sciences, Honolulu,EE.UU.

[54] Horrocks, I., Fensel, D., Broekstra, J., Decker, S., Erdmann, M., Goble, C., van Harmelen,F., Klein, M., Staab, S., Studer, R., y Motta, E. (2000), “The Ontology Inference Layer OIL.Technical report”, On-To-Knowledge,http://www.ontoknowledge.org/oil/TR/oil.long.html (accedido 14/6/2002).

[55] Kampman, A., y van Harmelen, F. (2001), “Sesame's interpretation of RDF Schema v.1.2”,http://sesame.aidministrator.nl/doc/rdf-interpretation.html (accedido 14/6/2002).

[56] Kantor, P.B., Boros, E., Melamed, B., Menkov, V., Shapira, B., y Neu, D.J. (2000),“Capturing human intelligence in the Net”, Communications of the ACM, Vol. 43, No. 8,pp. 112-115.

[57] Karvounarakis, G, Christophides, V., Plexousakis, D., y Alexaki, S. (2001), “Querying RDFDescriptions for Community Web Portals”, The French National Conference on Databases.Agadir, Maroc.

[58] Karypis, G., y Han, E. (2000), “Concept indexing: A fast dimensionality reduction algorithmwith applications to document retrieval and categorization”, Technical Report TR-00-0016,University of Minnesota.

[59] Kautz, H., Selman, B., y Shah, M. (1997), “Referral Web: combining social networks andcollaborative filtering”, Communications of the ACM, Vol. 40, No. 3, pp. 63-65.

[60] Kleinberg, J.M. (1998), “Authoritative Sources in a Hyperlinked Environment”, Proceedingsof the 9th Annual ACM-SIAM Symposium on Discrete Algorithms, San Francisco,California, EE.UU.


52

[61] Konstan, J.A., Miller, B.N., Maltz, D., Herlocker, J.L., Gordon, L.R., y Riedl, J. (1997),“GroupLens: Applying Collaborative Filtering to Usenet News”, Communications of theACM, Vol. 40, No. 3, pp. 77-87.

[62] Koster, M. (1994), “ALIWEB: Archie-Like indexing in the Web”, Computer Networks andISDN Systems, Vol. 27, No. 2, pp. 175-182.

[63] Kovács, L., y Micsik, A. (2000), “The Collaborative Web”, ERCIM News, No. 41.[64] Krovetz, R., y Croft, W.B. (1992), “Lexical Ambiguity and Information Retrieval”, ACM

Transactions on Information Systems, Vol. 10, No. 2, pp. 115-141.[65] Lassila, O., Swick, R.(1999), “Resource Description Framework (RDF) Model and Syntax

Specification”, W3C Recommendation, World Wide Web Consortium,http://www.w3.org/TR/REC-rdf-syntax (accedido 14/6/2002).

[66] Lieberman, H. (1995), “Letizia: An Agent That Assists Web Browsing”, Proceedings of theFourteenth International Joint Conference on Artificial Intelligence, Montreal, Quebec,Canada.

[67] Lieberman, H., Fry, C., y Weitzman, L. (2001), “Exploring the Web with ReconnaissanceAgents”, Communications of the ACM, Vol. 44, No. 8, pp. 69-75.

[68] Luke, S., Spector, L., y Rager, D. (1996), “Ontology-Based Knowledge Discovery on theWorld-Wide Web”, Working Notes of the Workshop on Internet-Based InformationSystems at the 13th National Conference on Artificial Intelligence (AAAI96).

[69] Maedche, A., y Staab, S. (2000), “Discovering Conceptual Relations from Text. TechnicalReport 399”, Institute AIFB, Karlsruhe University.

[70] Maes, P. (1994), “Agents that Reduce Work and Information Overload”, Communications ofthe ACM Vol. 37, No. 7, pp. 811-821.

[71] Marchiori, M., y Saarela, J. (1998), “Query + Metadata + Logic = Metalog”, Proceedings ofQuery Languages Workshop, Boston, MA, EE.UU.

[72] Mauldin, M.L, y Leavitt, J.R.R. (1994), “Web agent related research at the Center for MachineTranslation”, Proceedings of the ACM Special Interest Group on Networked InformationDiscovery and Retrieval (ACM-SIGNIDR-V), McLean, Virginia, EE.UU.

[73] Menczer, F., Belew, R.K., y Willuhn, W. (1995), “Artificial Life Applied to AdaptiveInformation Agents”, Proceedings of AAAI Spring Symposium on Information Gathering,Stanford, California, EE.UU.

[74] Mladenic, D. (1996), “Personal WebWatcher: Implementation and Design”, TechnicalReport IJS-DP-7472, Department of Intelligent Systems, J.Stefan Institute, Eslovenia.

[75] Montgomery, W. (1982), “Time to split?”,http://groups.Google.com/groups?selm=bnews.ihnss.1108&output=gplain (accedido10/6/2002).

[76] Morita, M., y Shinoda, Y. (1994), “Information filtering based on user behavior analysis andbest match text retrieval”, Proceedings of the 17th Annual International Retrieval, Dublin,Irlanda.

[77] Moukas, A. (1996), “Amalthaea: Information Discovery and Filtering using a MultiagentEvolving Ecosystem”, Proceedings of the Conference on Practical Applications of Agentsand Multiagent Technology, Londres, Reino Unido.

[78] Page, L, Brin, S. Motwani, R., y Winograd, T. (1998), “The PageRank Citation Ranking:Bringing Order to the Web”.

[79] Payne, T., y Edwards, P. (1995), “Interface Agents that Learn: An investigation of LearningIssues in a Mail Agent Interface”, Technical Report AUCS/TR9508, Department ofComputing Science, University of Aberdeen, Escocia. (Publicado también en AppliedArtificial Intelligence, Vol. 11, No. 1, 1997, pp. 1-32).

[80] Pazzani, M., Muramatsu, J., y Billsus, D. (1996), “Syskill & Webert: Identifying interestingweb sites”, Proceedings of the American National Conference on Artificial Intelligence(AAAI'96), Portland, Oregon, EE.UU.

[81] Pinkerton, B. (1994), “Finding what people want: Experiences with the WebCrawler”,Proceedings of the First International World Wide Web Conference. Ginebra, Suiza.


53

[82] Porter, M.F. (1980), “An algorithm for suffix stripping”, Program, Vol. 14, No. 3, pp.130-137.

[83] Rucker, J., y Marcos, J.P. (1997), “Siteseer: Personalized Navigation for the Web”,Communications of the ACM, Vol. 40, No. 3, pp. 73-75.

[84] Salton, G., y McGill, M.J. (1983), “Introduction to Modern Information Retrieval”, McGraw-Hill.

[85] Selberg, E., Etzioni, O. (1995), “Multi-Service Search and Comparison Using theMetaCrawler”, Proceedings of the 4th International World-Wide Web Conference, Boston,Massachusetts, EE.UU.

[86] Shardanand, U., y Maes, P. (1995), Social Information Filtering: Algorithms for Automating“Word of Mouth”, Proceedings of ACM CHI'95 Conference on Human Factors inComputing Systems, Denver, Colorado, EE.UU.

[87] Staab, S., Erdmann, M., Mädche, A., y Decker, S. (2000), “An extensible approach forModeling Ontologies in RDF(S)”, Proceedings of the ECDL-2000 Workshop "SemanticWeb: Models, Architectures and Management", Lisboa, Portugal.

[88] Starr, B., Ackerman, M.S., y Pazzani, M. (1996), “Do-I-Care: A Collaborative Web Agent”,Proceedings of the ACM on Human Factors in Computing Systems, Vancouver, Canada, pp.273-274.

[89] Ursing, B.M., y Arnason, U. (1998), “Analyses of mitochondrial genomes strongly support ahippopotamus-whale clade”, Proceedings of the Royal Society of London. Series B,Biological Sciences, 265:2251-2255.

[90] van Harmelen, F., Patel-Schneider, P.F., Horrocks, I. (2001), “Reference Description of theDAML+OIL (March 2001) Ontology Markup Language”, DAML+OIL Document,http://www.daml.org/2001/03/reference.html (accedido 14/6/2002).


55

AAppéénnddiiccee

The Cooperative Web: A Complement to the Semantic Web

Daniel Gayo Avello, Darío Álvarez GutiérrezDepartment of Informatics, University of Oviedo. Calvo Sotelo s/n 33007 Oviedo (SPAIN)

{dani, darioa}@lsi.uniovi.es

Abstract The Web is a colossal document repository that is

nowadays processed by humans only. The machines’ roleis just to transmit and display the contents, barely beingable to do something else. The Semantic Web tries tochange this status so that software agents can manipulatethe semantic contents of the Web. There are sometechnologies proposed for this task that facilitate thedefinition of ontologies and the semantic markup ofdocuments based on that ontologies. However, althoughthe Semantic Web can be very useful in fields such ase-business, digital libraries or knowledge managementinside corporate intranets, it is difficult to apply to theglobal Web. We propose a different, althoughcomplementary, approach: The Cooperative Web. Withthis approach, it would be possible to extract semanticsfrom the Web without the need of ontological artifacts.Besides, the experience of the users would also beleveraged.

1. Introduction

The Web is a colossal document repository that isnowadays processed by humans only. The machines’ roleis just to transmit and display the contents. It is indeedvery little what a computer can do autonomously with theWeb contents.

This situation is painfully obvious whenever any userneeds to get some information by means of a searchengine. Initially, thousands of documents can be returned1.Only after successive refinement of the query the result setis manageable, although it is not usually what was lookedfor.

The problem lies in the way the search engineprocesses the documents. Only the text of the documentsis processed, and not the semantics, as the language inwhich the documents are authored does not allow to attachmeaning to the contents. The Semantic Web [1][2] is aproposal from Tim Berners-Lee that tries to partially solve

1 A Google search of the phrase “semantic web” returns 44,600documents (20th January, 2002).

these problems. It is described as “a web of data that canbe processed directly or indirectly by machines”. It wouldnot be a new Web, but an evolution of the current Web bythe use of “tags” that provide semantics instead of layoutstructure (like HTML tags).

A number of techniques were proposed in thebeginnings of the Semantic Web to solve this lack ofsemantic markup. Some suggested to use HTML/XMLtags [3], while others used extensions of HTML [4][5].

These projects had two things in common. The firstcommon point was the need for ontologies to provide aconceptual framework for the semantic markup to havemeaning. The second was the possible use of an inferencesystem (more or less powerful) to obtain new knowledge.The Semantic Web has maintained this evolution bydefining an architecture that offers a solution to many ofthe problems of the Web. However, other semanticproblems are out of the scope of this approach, but can besolved by using the approached proposed in this paper.

2. Semantic Web and Web Semantics

The Semantic Web tries to facilitate semanticinformation processing in the Web to machines. Toachieve this, technologies to define ontologies and toexpress concepts with these ontologies are beingdeveloped, thus providing software agents with the abilityto “understand” those concepts and to infer newinformation from them.

These technologies do allow to explicitly express asemantic for Web documents that was lacked previously.Nevertheless, that kind of Semantic Web, although usefuland necessary, does not cover all the Web semanticsissues.

2.1. Technologies for the Semantic Web

There are already some technologies that makepossible important parts of the Semantic Web. Thissection overviews the main ones and how they are related.

RDF [6] is a W3C recommendation that providessupport for the description of resources available in theWeb, the relationships between them, and an XML syntax

for its codification and serialization. Metadata describedusing RDF can be easily processed and exchanged byagents, and therefore a number of semantic services canbe created. However, although RDF can use attributes andrelationships, no mechanisms are provided to declarethem. This task is done by RDF Schema [7] using RDF.

OIL [8] is a product of the On-To-Knowledge2

project. It is a standard for the definition and exchange ofontologies. It extends RDF Schema and allows thedefinition of classes, relationships, and the possibility ofdoing inference as well.

DAML+OIL3 [9] is a semantic markup language basedon OIL and on the previous version of the ontologylanguage DAML-ONT. It is similar to OIL. Both of themcan be deemed as RDF Schema extensions.

2.2. There are more Semantics in Web than areManaged by the Semantic Web

The Semantic Web as described before is very usefulin fields such as e-business, digital libraries or knowledgemanagement in corporate intranets. Nevertheless, there ismore useful semantic information out of the reach of theSemantic Web. Summarizing, a Semantic Webapplication requires an ontology that describes thefundamental concepts of a particular field in order tosemantically markup the documents. Obviously, theontologies can be generated semi-automatically [10][11],as well as the documents semantic markup [12].

However, there are situations in which this is verydifficult to apply. For example, it may be the case thatbuilding the ontology is not easy or possible [13](especially in the case of free text), or that there is noeconomic interest, or that the documents can not betagged because they do not belong to the entity thatdeveloped the ontology, etc. These cases are verycommon, as the current Web, because of its size andheterogeneity, makes the global implementation of aSemantic Web shell not possible.

It is possible, and urgent, to apply the Semantic Webin many Web Engineering fields. Anyway, the Web as awhole is not among these fields. However, we think that itis possible to make a different and complementaryapproach to the Semantic Web that can be applied infields where it can not do so.

2 On-To-Knowledge is an European project that has the goal ofdeveloping methods and tools that allow to exploit the potential ofontologies in the field of knowledge management.http://www.ontoknowledge.org/3 DAML (DARPA Agent Markup Language) is a DARPA programsimilar in some ways to the On-To-Knowledge project. The main goal ofDAML is the developing of languages and tools to facilitate theimplementation of the Semantic Web. http://www.daml.org/

3. The Cooperative Web

As a complement to the Semantic Web we proposewhat we call the Cooperative Web, supported by threebasic points: using concepts instead of keywords andontologies, the classification of documents based on theseconcepts into a taxonomy, and the cooperation betweenusers (actually between agents acting on behalf of theusers).

3.1. Concepts vs. Keywords

The retrieval of information using keywords andkeyphrases used by current search engines has theproblems of a relatively low precision and a high recallvalue4. The use of ontologies can improve precision insome cases. However, developing ontologies to supportany conceivable query on the Web would beinsurmountably hard.

There is a middle point: the use of concepts. Aconcept would be a more abstract entity (and with moresemantics) than a keyword. It would not require complexartifacts such as ontology languages or inference systems.A concept can be seen as a cluster of words with similarmeaning in a given scope, ignoring tense, gender, andnumber. So, in a given knowledge field the concept(computer, machine, server) would exist,while in another field (actor, actress, artist,celebrity, star) would be a valid concept.

Concepts would be useful if they add semantics in ananalogous way as ontologies, whereas they should be ableto be automatically generated and processed as keywords.Currently there are enough techniques able to be used oradapted to carry out this automatic extraction task, such asLatent Semantic Indexing5 [14] or others that were alreadymentioned for the semi-automatic generation of ontologies[10][11]. In the next section we will examine howsemantics can be obtained using concepts withoutresorting to any ontology support.

3.2. Document Taxonomies

To give meaning to a document the Semantic Webneeds an ontology defining a number or terms and therelationships between them, in order to then tag parts of

4 Precision and recall concepts defined in [17].5 “Latent Semantic Indexing (LSI) is an information retrieval methodthat organizes information into a semantic structure. It takes advantageof some of the implicit higher-order associations of words with textobjects. The resulting structure reflects the major associative patterns inthe data while ignoring some of the smaller variations that may be dueto idiosyncrasies in the word usage of individual documents. Thispermits retrieval based on the the "latent" semantic content of thedocuments rather than just on keyword matches.” [14]

the document based on these terms. Instead, theCooperative Web would use the whole text of thedocument without using any markup as the source forsemantic meaning. How could this be done without theneed to “understand” the text?

A document can be seen as an individual from apopulation. Among living beings an individual is definedby its genome, which is composed of chromosomes,divided into genes constructed upon genetic bases. Alike,documents are composed of passages (groups of sentencesrelated to just one subject), which are divided intosentences built upon concepts. Using this analogy, it isevident that two documents are semantically related iftheir ”genome” are alike. Big differences betweengenomes mean that the semantic relationship betweendocuments is low.

We think that this analogy can be put into practice,and that it is possible to adapt some algorithms used incomputational biology [15][16] to the field of documentclassification. In a gross way, these kind of algorithmswork with long character strings representing fragments ofindividuals’ genome from same or different species.Similar individuals or species have similitudes in theirgenetic codes so it is possible to classify individuals andspecies into taxonomies without the need to know whatevery gene “does”.

In the same way, documents could be classified intotaxonomic trees depending on the similitudes found intheir “conceptual genome”. The important thing aboutsuch a classification is that it would provide semantics(similitudes at the conceptual level between documents orbetween documents and user queries) without requiringthe classification process to use any semantics.

3.3. Collaboration between Users

The current Web has also another problem at least asserious as its lack of semantics. Each time a user browsesthe Web, she establishes a path that could be useful forothers. Besides, many others could have followed thatpath before. However, that experimental knowledge islost.

The Cooperative Web intends to utilize userexperiences, extracting useful semantics from them. Eachuser in the Cooperative Web would have an agent withtwo main goals: to learn from its master, and to retrieveinformation for her.

3.3.1. Learning from the Master

Reaching the first goal, to learn from its master,involves the task of developing a user profile thatdescribes her interests. This description would be done interms of concepts, and would be constructed upon the

documents the user stores in her computer, visitsfrequently, are in her browser’s bookmarks, etc.

Once the user is attached to a given profile, it ispossible to use this information to give a semantic to Webdocuments that does not depend only on the document,but on the user browsing the document herself. One aspectnot considered by the current Web and the Semantic Webis the “utility” of a document. Documents are searchedand processed by humans depending on the usefulnessthey expect to get from them. That utility does not residein the contents but it is a subjective judgement that aparticular user assigns to a specific document.

The Cooperative Web, having each user attached to aprofile, could assign to each par (profile,document) a utility level. Having an agent for each userit would be responsible for deciding that utility level. Inorder for this utility valuation to be really practical, theutility level should be determined in an implicit way (justby observing users’ behavior, without querying them).The utility level should also be assigned to individualpassages within a document, and not to the document as awhole.

Most of the projects related to users’ resource ratingrequire a voluntary participation of the user, as forexample in AntWorld [18] and Fab [19][20]. The maingoal of AntWorld was to utilize the users’ experience tofacilitate other users the searching task. It used documentexplicit ratings, making suggestions depending on thequery the user was formulating at the moment. Fab, on theother hand, was a web page recommendation system. Itdid lexical analysis of texts, requesting from users a ratingof the suggested recommendations.

However, there are some interesting experiences in thefield of implicit rating. Reference [21] describes anexperimental study that treated the problem of providinginteresting USENET posts to a group of users, dependingon their preferences. The technique used to implicitlydetermine the user rating was based on reading times,actions made upon the environment, and actions madeupon the text of the posts. GroupLens [22] describes asimilar system, asserting that using the reading time as theimplicit rating system obtains similar recommendations tothe ones obtained using explicit rating, thus confirmingfindings in [21].

We think that the implicit rating approach is moreadequate for a practical implementation. A thoroughresearch of the psychological attention and learningmechanisms along the browsing process will probablycontribute very interesting results to the field of implicitrating.

3.3.2 Retrieving Information for the Master

Regarding the retrieving of information for the master,

the agent would have two different ways to do it: to findinformation satisfying a query, or to explore on behalf ofthe user to recommend then unknown documents. Ahybrid of two reputed techniques would be veryinteresting to apply for both cases: Collaborative Filtering[23] and Case/Content-Based Recommendation.

In a nutshell, Collaborative Filtering (CF) provides auser with what other individuals alike have found useful(one example is the Amazon6 service “Customers whobought this book also bought:”).

Case/Content-Based Recommendation (CBR), on theother hand, provides elements similar to a start element asa recommendation. In our case, if the agent used CF,documents with a high utility level for the user profilewould be recommended, without regard to the conceptualrelationship between the document and the profile. UsingCBR, documents similar to the description of the userprofile (or similar to a query or a start document) wouldbe recommended, without regard to the utility level ofthese documents.

Using hybrid techniques facilitates the finding of newelements and the operation of a user community (profilemembers) when they have not rated many documents yet[24]. This hybrid approach has been used in someprojects. For example, [25][26] describe how acombination of both techniques is used for a musicalrecommendation system. The CASPER project (Case-based Agency: Skill Profiling and ElectronicRecruitment)7 researches these techniques in the field ofcontent customization. In the first case, the goal was torecommend songs that users would probably like. Thesystem was able to indicate songs that other users withsimilar taste found interesting (CF), or to find songs that“sounded” similar to other songs the user had alreadyliked (CBR). CASPER tries to develop an environmentthat offers searches by content similitude, as well as userprofiling to provide customized contents, related in thiscase to employment offers.

4. Conclusion

We have briefly described the concept of the SemanticWeb, pointing some aspects that hinder its application tothe Web as a whole. As a complement to the SemanticWeb we propose the Cooperative Web, which is based onthe automatic extraction of concepts from document textto establish a document taxonomy in an automatic way.

Besides, the Cooperative Web integrates users asanother system element. Users are classified into differentprofiles, and extracting valuable information that linksusers and documents with a utility relationship.

6 http://www.amazon.com7 http://kermit.ucd.ie/casper

These metadata would allow the implementation ofinformation retrieval and recommendation mechanisms inthe global Web more accurate and effective than currentsearch engines and that can not be provided by theSemantic Web.

5. Future Work

We are making a deeper study about the CooperatingWeb that is the subject for a PhD. thesis. The followingsubsystems would be developed for a full operativeprototype:

• Text filtering: Natural Language Processing (NLP)systems that eliminate stop words, and text featuressuch as gender, tense, and number. These systemswould have to be adaptable to different languages.

• Conceptual Distilling: Systems to extract theconcepts present in the filtered text. They do notobtain a “concepts bag”, but a “conceptualgenome” for each document.

• Taxonomic Classification: Systems that, based onthat “genome”, are able to classify it into adocument tree with conceptual similitude criteria.

• User Profiling: Agents that establish a user profilebased on the documents the user “processes”, andthat classify that profile in a taxonomy of userprofiles.

• Implicit Rating: Agents that determine the utilitylevel for a document, or for part of a document,and a user profile, based on the actions of the user.

• Retrieval: Systems that provide documents thatconceptually satisfy the information requests madeby the user. They apply the conceptual filtering anddistilling systems upon the query andtaxonomically classify that query in the documenttree.

• Recommendation: Agents that explore thedocument tree and cooperate with other agentsfrom their profile to find items of interest for itsmaster.

6. References

[1] T. Berners-Lee, “Semantic web road map,” Internal note,World Wide Web Consortium,http://www.w3.org/DesignIssues/Semantic.html, 1998.

[2] T. Berners-Lee, J. Hendler, and O. Lassila, “The SemanticWeb,” Scientific American, 2001.

[3] F. van Harmelen, and J. van der Meer, “WebMaster:Knowledge-based Verification of Web-pages,”Proceedings of “Practical Applications of KnowledgeManagement” PAKeM’99, The Practical ApplicationsCompany, London, 1999.

[4] S. Luke, and J. Heflin, “SHOE 1.01. ProposedSpecification,”http://www.cs.umd.edu/projects/plus/SHOE/spec1.01.html,2000.

[5] S. Decker, M. Erdmann, D. Fensel, and R. Studer,“Ontobroker: Ontology based access to distributed andsemi-structured information,” in R. Meersman et al.,editor, DS-8: Semantic Issues in Multimedia Systems,Kluwer Academic Publisher, 1999 pp. 351-369.

[6] O. Lassila, and R. Swick, “Resource DescriptionFramework (RDF) Model and Syntax Specification,” W3CRecommendation, World Wide Web Consortiumhttp://www.w3.org/TR/REC-rdf-syntax, 1999.

[7] D. Brickley, and R.V. Guha, “Resource DescriptionFramework (RDF) Schema Specification 1.0,” W3CCandidate Recommendation, World Wide WebConsortium, http://www.w3.org/TR/rdf-schema, 2000.

[8] I. Horrocks, et al., “The Ontology Inference Layer OIL,”Technical report, On-To-Knowledge,http://www.ontoknowledge.org/oil/TR/oil.long.html, 2000.

[9] F. van Harmelen, P.F. Patel-Schneider, and I. Horrocks,“Reference Description of the DAML+OIL (March 2001)Ontology Markuk Language,” DAML+OIL Document,http://www.daml.org/2001/03/reference.html, 2001.

[10] P. Clerkin, P. Cunningham, and C. Hayes, “OntologyDiscovery for the Semantic Web Using HierarchicalClustering,” Semantic Web Mining Workshop, 2001.

[11] A. Maedche, and S. Staab, “Discovering ConceptualRelations from Text,” Technical Report 399, InstituteAIFB, Karlsruhe University, 2000.

[12] M. Erdmann, A. Maedche, H.P. Scnurr, and S. Staab,“From Manual to Semi-automatic Semantic Annotation:About Ontology-based Text Annotation Tools,” ETAIJournal – Section on Semantic Web (Linköping ElectronicArticles in Computer and Information Science), 6, 2001.

[13] C. Kwok, O. Etzioni, and D.S. Weld, “Scaling QuestionAnswering to the Web,” In Proceedings of the TenthInternational World Wide Web Conference, Hong Kong,China, 2001, pp. 150-161.

[14] P.W. Foltz, “Using Latent Semantic Indexing forInformation Filtering,” In Proceedings of the ACMConference on Office Information Systems, Boston, USA,1990, pp. 40-47.

[15] L. Arvestad, “Algorithms for Biological SequenceAlignment,” PhD thesis, 1999.

[16] A. Ben-Dor, R. Shamir, and Z. Yakhini, “Clustering GeneExpression Patterns,” Journal of Computational Biology 6,1999, pp. 281-297.

[17] G. Salton, Automatic Text Processing: TheTransformation, Analysis, and Retrieval of Information byComputer, Addison Wesley, 1989.

[18] V. Meñkov, D.J. Neu, and Q. Shi, “AntWorld: ACollaborative Web Search Tool,” In Proceedings ofDistributed Communities on the Web, Third InternationalWorkshop, 2000, pp. 13-22.

[19] M. Balabanovic, and Y. Shoham, “Fab: Content-Based,Collaborative Recommendation,” CACM 40(3), 1997, pp.66-72.

[20] M. Balabanovic, “An Adaptive Web PageRecommendation Service,” In Proceedings of the FirstInternational Conference on Autonomous Agents, 1997.

[21] M. Morita, and Y. Shinoda, “Information filtering based onuser behaviour analysis and best match text retrieval,” InProceedings of the 17th ACM Annual InternationalConference on Research and Development in InformationRetrieval, Dublin, Ireland, 1994, pp. 272-281.

[22] J.A. Konstan, B.N. Miller, D. Maltz, J.L. Herlocker, L.R.Gordon, and J. Riedl, “GroupLens: Applying CollaborativeFiltering to Usenet News,” CACM 40(3), 1997, pp. 77-87.

[23] D. Goldberg, D. Nichols, B.M. Oki, and D. Terry, “UsingCollaborative Filtering to Weave an Information Tapestry,”CACM 35(12), 1992, pp. 61-70.

[24] R. Burke, “Integrating Knowledge-based andCollaborative-filtering Recommender Systems,” InProceedings of the AAAI Workshop on AI and ElectronicCommerce. Orlando, Florida, 1999, pp. 69-72.

[25] I. Goldberg, S.D. Gribble, D. Wagner, and E.A. Brewer,“The Ninja Jukebox,” In Proceedings of USITS' 99: The2nd USENIX Symposium on Internet Technologies &Systems. Boulder, Colorado, USA, 1999.

[26] M. Welsh, N. Borisov, J. Hill, R. von Behren, and A. Woo,“Querying Large Collections of Music for Similarity,”Technical Report UCB/CSD00-1096, U.C. BerkeleyComputer Science Division, 1999.