thesis text mining

69
Universidad de Oriente Facultad de Matemática y Computación Departamento de Computación Trabajo de Diploma Empleo de Algoritmos de Agrupamiento como Métodos de Condensado en Minería de Textos Presentado en opción al Título de Licenciado en Ciencia de la Computación Autor: José Antonio Molinet Berenguer Dirigido por: MSc. Adrian Fonseca Bruzón Dr. C. Reynaldo Gil García Santiago de Cuba, Mayo 2010

Upload: jose-antonio-molinet-berenguer

Post on 26-Jul-2015

123 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Thesis Text Mining

Universidad de Oriente

Facultad de Matemática y Computación Departamento de Computación

Trabajo de Diploma

Empleo de Algoritmos de Agrupamiento como Métodos de

Condensado en Minería de Textos

Presentado en opción al Título de Licenciado en Ciencia de la Computación

Autor:

José Antonio Molinet Berenguer

Dirigido por:

MSc. Adrian Fonseca Bruzón Dr. C. Reynaldo Gil García

Santiago de Cuba, Mayo 2010

Page 2: Thesis Text Mining

A mi hermano y mis padres Por ser mis guías para llegar hasta aquí

Page 3: Thesis Text Mining

Agradecimientos

Mi mayor agradecimiento en la vida siempre será a mis padres y mi hermano, por brindarme su amor y apoyo constantemente. Por confiar en mí y demostrarlo sin reservas. Por soportar tantos años de estar fuera y ayudarme a mí a soportarlos también. Esta tesis sería una obra inconclusa sin la presencia de Adrian, desde hace años ya, para evocar toda mi voluntad. Su ayuda como tutor ha sido decisiva para este trabajo, pero su amistad ha sido transcendental para mi vida. Son años de comprensión, convivencia y muchas fiestas más las que nos unieron. Los amigos que están y los que ya se han ido (de diferentes formas) pero que nunca se olvidan. A Luis Manuel, que todavía le debo un viaje a Gibara, este es tu trabajo de diploma también. A algunos que cuando empezamos no sabíamos cuando acabar, pero que cambiamos muchas historias. A Gustavo y su familia por considerarme parte de ellos. A los amigos que siempre hemos estado ahí, sin crear una jerarquía: Eubis y Victor los primeros en recibirme. Yidier y los inagotables problemas del mundo. Reinier y sus temas sorpresivos, solo válidos para Elisabeth. Shippuden (o José por su nombre científico) de insaciables ganas de ayudar (con la comida) a los mareados. Eduardo y su búsqueda del juego perfecto, o la manera perfecta de jugarlo. A Packy por sus cuerdas desafinadas en la última nota sin perjudicar las primeras. A Erick, la especialidad de la casa según los eruditos de la cocina y la incondicionalidad según los corazones (afirmado por Dai, compañera de todos y peso completo en sinceridad). A Adriana, mástil y proa de los náufragos de espíritu. A Frank veterano de aventuras y a Silvia. A Pedro, Papote, Lorena y sus compañeras, Yuri y todos los que están al pie de página. A los viejos compañeros del D, de las peñas, festivales. A mis compañeros del aula. A José Ramón y Fleitas por soportar mi música y llegar a gustarle. Especial, como ella, es mi agradecimiento para mi novia Darling, quien ha estado a mi lado literalmente hasta el último segundo de la realización de esta Tesis. Su presencia diaria y su apoyo, fueron la base de toda mi expresión y el desenlace de todas mis dudas. A su mamá le hago extensivo mi agradecimiento, por su sonrisa encantadora y llena de esperanza. Parte importante del desarrollo de este trabajo es debido a la ayuda de los profesores de CERPAMID, los cuales permiten la superación de varios estudiantes, gracias por esta oportunidad. A la profesora Aurora por ser el ejemplo a seguir por todo estudiante. Al profesor Gil por permitirme su conocimiento. De manera general a todos los trabajadores de CERPAMID y de DATYS, por acogernos en sus instalaciones y hacernos sentir parte de ellos. Quisiera agradecer también a todos aquellos profesores o estudiantes con los que he compartido estos años y me han ayudado a formarme como profesional y ser humano.

Page 4: Thesis Text Mining

I

Resumen

En la Minería de Textos, los clasificadores basados en vecindad han sido extensamente aplicados por sus buenos resultados y relativa facilidad de implementación. Uno de los aspectos singularmente negativos asociados a las distintas variantes conocidas de este tipo de clasificadores radica en la necesidad de disponer de un conjunto de entrenamiento relativamente grande. Esto conlleva a que el cálculo de los vecinos sea computacionalmente costoso, lo que podría imposibilitar su empleo en determinadas aplicaciones reales donde es necesaria una respuesta rápida por parte del clasificador. Con el objetivo de eliminar este inconveniente, en este trabajo se propone el empleo de algoritmos de agrupamiento para reducir la talla del conjunto de entrenamiento de los clasificadores basados en vecindad. Para probar la propuesta se realizaron un número grande de experimentos con colecciones de documentos de referencia internacional. Los resultados obtenidos, al aplicar nuestra propuesta a las tareas de Categorización de Documentos y el Filtrado Adaptativo de Documentos, muestran que la propuesta aquí presentada al ser comparada con los métodos de condensado tradicionales obtiene resultados similares o superiores de clasificación, pero reduce considerablemente más el conjunto de entrenamiento inicial.

Page 5: Thesis Text Mining

II

Abstract

In Text Mining, Nearest Neighbors classifiers have been widely used because of their good performance and relative simplicity of implementation. A negative point of these classifiers is the need for a large number of samples in the training set to obtain good results. Due to this need, the calculation of the nearest neighbors is computationally expensive and may restrict its application in some real problems which require a rapid response by the classifier. In order to eliminate this inconvenient, in this work we propose to employ a clustering algorithm to reduce the size of the training set for neighborhood-based classifiers. To test the proposal, a large number of experiments were conducted using reference document collections. The results obtained in Text Categorization and Adaptive Document Filtering, show that our proposal, when compared to traditional condensing algorithms, obtains similar or better results in classification, and additionally it achieves a better reduction of the initial training set.

Page 6: Thesis Text Mining

III

Índice

Introducción ................................................................................................................................ 1

Capítulo 1 .................................................................................................................................... 3

1.1 Conceptos Fundamentales ............................................................................................ 3 1.1.1 Formulación General de un Problema de Clasificación Supervisada ................... 4 1.1.2 Representación de los Documentos ...................................................................... 5 1.1.2.1 Esquemas de pesado de términos .......................................................................... 6 1.1.3 Medida de semejanza ............................................................................................ 7

1.2 Clasificadores basados en Criterios de Vecindad ........................................................ 7 1.2.1 Construcción de la Vecindad ................................................................................ 8 1.2.1.1 Vecindad de los k vecinos más cercanos .............................................................. 8 1.2.1.2 Vecindad αβ .......................................................................................................... 9 1.2.2 Métodos de Votación .......................................................................................... 11 1.2.3 Reglas de Decisión .............................................................................................. 12

1.3 Métodos de Condensado ............................................................................................ 12 1.3.1 Condensado del Vecino más Cercano ................................................................ 13 1.3.2 Reducido del Vecino más Cercano ..................................................................... 15 1.3.3 Subconjunto Consistente Mínimo ....................................................................... 16 1.3.4 Subconjunto Selectivo Modificado ..................................................................... 18

1.4 Algoritmos de Agrupamiento ..................................................................................... 19 1.4.1 Algoritmos de pasada simple .............................................................................. 20 1.4.1.1 Algoritmo SinglePass ......................................................................................... 20 1.4.2 Algoritmos basados en grafos ............................................................................. 22 1.4.2.1 Algoritmo GLC ................................................................................................... 23 1.4.2.2 Algoritmo Compacto Incremental ...................................................................... 24 1.4.2.3 Algoritmo Estrellas Grado .................................................................................. 26

1.5 Filtrado Adaptativo de Documento ............................................................................ 28

Page 7: Thesis Text Mining

IV

1.5.1 Esquema General de un Sistema de Filtrado Adaptativo de Documentos ......... 29 1.5.2 Estructura de un Sistema de Filtrado Adaptativo de Documentos ..................... 30 1.5.3 Algoritmo de Filtrado Adaptativo de Documentos ............................................. 31

Capítulo 2 .................................................................................................................................. 34

2.1 Algoritmos de Agrupamiento como métodos de condensado .................................... 36

2.2 Experimentos .............................................................................................................. 39 2.2.1 Medidas de Evaluación ....................................................................................... 39 2.2.2 Categorización de Documentos .......................................................................... 40 2.2.2.1 Colecciones de Prueba ........................................................................................ 40 2.2.2.2 Descripción de los experimentos ........................................................................ 42 2.2.2.3 Resultados experimentales .................................................................................. 43 2.2.2.4 Conclusiones ....................................................................................................... 51 2.2.3 Filtrado Adaptativo de Documentos ................................................................... 51 2.2.3.1 Colecciones de Prueba ........................................................................................ 52 2.2.3.2 Descripción de los experimentos ........................................................................ 53 2.2.3.3 Resultados experimentales .................................................................................. 53 2.2.3.4 Conclusiones ....................................................................................................... 56

Conclusiones ............................................................................................................................. 57

Recomendaciones ..................................................................................................................... 58

Referencias Bibliográficas ........................................................................................................ 59

Page 8: Thesis Text Mining

1

Introducción

El empleo de Internet, como forma principal de comunicación e intercambio en el mundo, ha propiciado un aumento constante del volumen de información que circula en la red. La mayor parte de esta información se encuentra almacenada en forma textual no estructurada, por ejemplo, noticias periodísticas, correos electrónicos, foros de discusión, informes médicos, actas de reuniones, artículos científicos, libros, páginas Web, etc. El acelerado crecimiento de la información presente en Internet impide su análisis de forma manual o la realización de una exploración efectiva. Para facilitar a los usuarios la obtención de la información que necesitan, en un tiempo razonable, es imprescindible el desarrollo de técnicas que permitan el procesamiento automático y eficiente de esta información.

Los primeros esfuerzos encaminados a resolver este problema dieron surgimiento a la Minería de Textos. La cual toma auge a mediados de los años noventa producto del incremento de la información disponible en medios electrónicos. Hoy día se considera que más de un 80% de la información disponible en Internet se encuentra almacenada en forma textual. La Minería de Textos es una disciplina dentro del Reconocimiento de Patrones que tiene por objetivo descubrir el conocimiento que no existe de forma explícita en los documentos, sino que surge de relacionar el contenido de varios de ellos.

Entre las tareas de la Minería de Textos encontramos:

Categorización de Documentos.

Agrupamiento de Documentos.

Filtrado de Información.

La Categorización de Documentos (o Clasificación de Documentos) consiste en asignar a un documento una o más categorías (tópicos, asuntos) previamente definidas. Esta tarea se basa en la disponibilidad de un conjunto inicial de documentos clasificados en estas categorías (conjunto de entrenamiento). La Categorización de Documentos es un componente importante en la gestión de información, en tareas como el filtrado de spam, la clasificación en tiempo real del correo electrónico, el direccionamiento de documentos, la clasificación de páginas web, entre otras.

El Agrupamiento de Documentos es una las técnicas más utilizadas para descubrir conocimientos. El objetivo de esta tarea consiste en obtener una estructuración de un conjunto de documentos en grupos de forma tal que los documentos dentro de un mismo grupo posean

Page 9: Thesis Text Mining

Introducción

2

un alto grado de semejanza y los pertenecientes a grupos diferentes sean poco semejantes entre sí. Entre los diferentes contextos en que se aplica esta tarea se encuentran la Recuperación de Información y el seguimiento y detección de sucesos en un flujo continuo de noticias.

El Filtrado de Información es el proceso de recuperar de un flujo de documentos, aquellos que satisfacen las necesidades de información de un usuario (perfil de usuario). Existe un conjunto de Sistemas de Filtrado de Documentos que poseen la propiedad de poder recibir información de los usuarios indicando cuándo un documento ha sido incorrectamente recuperado, los cuales son conocidos como Sistemas de Filtrado Adaptativo de Documentos. Estos sistemas son capaces de actualizar el perfil de los usuarios, permitiéndoles obtener una mayor efectividad en su desempeño.

Varios han sido los clasificadores que se han aplicado en el área de la Minería de Textos. Entre los más empleados se encuentran los basados en vecindad, debido a su relativa simplicidad de implementación y los buenos resultados que obtienen durante el proceso de clasificación. Estos algoritmos poseen el inconveniente de requerir de un conjunto de entrenamiento relativamente grande. Esta condición conlleva a un elevado costo computacional y provoca que su aplicación se vea limitada en ciertos entornos reales en los cuales se requiere de una respuesta rápida por parte del clasificador. Por otro lado, es probable que en el conjunto de entrenamiento exista gran cantidad de información redundante no necesaria para el proceso de clasificación.

En la Minería de Datos este problema se ha estudiado y se han obtenido algoritmos que permiten eliminar del conjunto de entrenamiento aquellas muestras redundantes, conocidos por el nombre de Algoritmos de Condensado. Sin embargo, en la Minería de Textos este problema no ha sido abordado con igual intensidad. De forma general, el objetivo para cualquier procedimiento de condensado, consistirá en descartar del conjunto de entrenamiento toda la información que no sea relevante para el proceso de clasificación.

Este trabajo tiene por objetivo evaluar el desempeño de los algoritmos de agrupamiento al emplearlos para reducir el conjunto de entrenamiento de los clasificadores basados en vecindad al ser aplicados a la Minería de Textos.

El presente Trabajo de Diploma está estructurado de la siguiente forma: Introducción, dos capítulos, conclusiones y bibliografía. El primer capítulo es una pequeña revisión bibliográfica en la que se exponen los conceptos y algoritmos fundamentales que permitirán al lector entender el resto de la tesis. En el capítulo dos se expone nuestra propuesta de emplear algoritmos de agrupamientos para reducir el conjunto de entrenamiento y se muestran los resultados experimentales obtenidos al aplicarla en las tareas de Categorización de Documentos y el Filtrado Adaptativo de Documentos.

Page 10: Thesis Text Mining

3

Capítulo 1

Fundamentos Teóricos

En el presente capítulo se exponen los principales aspectos teóricos que se emplean en nuestro trabajo. En primer lugar, se especifican los conceptos fundamentales en los que se basan los distintos algoritmos aquí tratados. Se explican dos variantes de los clasificadores basados en vecindad. Además, se detallan algunos de los algoritmos de condensado más aplicados en la Minería de Datos y se analizan sus principales ventajas y limitaciones. A continuación, se muestran los algoritmos de agrupamiento que serán empleados en nuestra propuesta, se clasifican atendiendo a determinados criterios y se analizan sus beneficios y desventajas. Por último, se describe la tarea de Filtrado Adaptativo de Documentos y se explica el algoritmo empleado en el presente trabajo.

1.1 Conceptos Fundamentales

Entre los problemas fundamentales del Reconocimiento de Patrones se encuentran la Clasificación Supervisada y la Clasificación No Supervisada. En un problema de clasificación supervisada existe un universo de objetos dividido en clases y se dispone de muestras de cada una de ellas. Se persigue entonces, determinar a qué clases corresponde un nuevo objeto. Los algoritmos que realizan este proceso son conocidos como clasificadores. Por el contrario, en un problema de clasificación no supervisada se desconocen las clases en que se distribuye el universo de objetos y no se poseen muestras de ellas. Se tiene como objetivo entonces, estructurar el conjunto de objetos en grupos. Los algoritmos que realizan esta tarea son conocidos como algoritmos de agrupamiento. Dentro del Reconocimiento de Patrones existen 3 aproximaciones fundamentales en función del tipo de espacio de representación utilizado y de cómo se estructura la información correspondiente a cada representación. El Reconocimiento Sintáctico o Estructural de Formas [Fuyama, 1982], el cual define explícitamente la estructura de las características asociadas a los modelos, así como las relaciones permitidas entre ellas. El segundo grupo corresponde al Reconocimiento Lógico Combinatorio [Shulcloper, 1995]. Este enfoque se basa en la idea de que la modelación del problema debe ser lo más cercana posible a la realidad del mismo, sin hacer suposiciones que carezcan de fundamento. La última vertiente corresponde al

Page 11: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

4

Reconocimiento Estadístico de Formas [Devroye, 1996]. En él se asume que el espacio de representación posee una estructura de espacio vectorial.

Dentro del Reconocimiento Estadístico de Formas se suele hacer distinción entre las aproximaciones paramétricas y las no paramétricas. En el primer caso, se asume un conocimiento a priori sobre la forma funcional de las distribuciones de probabilidad de cada clase sobre el espacio de representación, por el contrario, las aproximaciones no paramétricas no suponen ninguna forma de las distribuciones de probabilidad sobre el espacio de representación.

Dentro de los clasificadores estadísticos no paramétricos es necesario destacar las aproximaciones basadas en criterios de vecindad. Los clasificadores basados en criterios de vecindad suponen que los objetos se ubican en el espacio de representación de forma tal que los objetos pertenecientes a la misma clase están más cercanos entre sí que a objetos de otras clases. Bajo esta óptica, los esquemas de clasificación únicamente exigirán la definición de una cierta medida de similitud entre los distintos elementos del espacio de representación, es decir, que éste sea métrico (o, pseudo-métrico).

La principal ventaja que presenta la clasificación basada en criterios de vecindad respecto a otros métodos no paramétricos, es su simplicidad conceptual, que podría resumirse como: la clasificación de un nuevo objeto se puede estimar en función de la clasificación conocida de los objetos dentro de un entorno suficientemente pequeño al nuevo objeto.

1.1.1 Formulación General de un Problema de Clasificación Supervisada

En general, cualquier problema de clasificación supervisada abordado con un enfoque estadístico se podrá caracterizar del siguiente modo:

Sea E el espacio de representación de un determinado problema de clasificación, en el cual se tienen M clases, Ω = ω1, ω2,…, ωM, de manera que formen una partición de E. Además, se dispone de N prototipos (o muestras pre-clasificadas) pertenecientes al espacio, las cuales se tomarán como conjunto de entrenamiento (CE), el que a su vez se representará como:

CE = X, Ω = (x1, ω1), (x2, ω2),…, (xN, ωN)

El problema consistirá en dado una nueva muestra x de E, estadísticamente independiente del conjunto X, Ω, la cual puede estar contenida en cualquiera de las M clases, determinar a qué clase del espacio pertenece. Este procedimiento es conocido como Regla de Clasificación o Clasificador y se representa como:

δ: E Ω, δ(x) = ωi i = 1,…, M

Page 12: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

5

Existen distintas alternativas para expresar un determinado clasificador δ. Una de las representaciones está dada en términos de un conjunto de funciones discriminantes, Di(x) i = 1,…, M, es decir, una por cada clase en el espacio E [Duda, 1973]. En este caso, el clasificador se puede expresar de la siguiente manera:

δ(x) = ωi Di(x) > Dj(x) j≠ i i, j = 1,…, M

Por tanto, el clasificador asigna el objeto x a la clase o partición ωi del espacio de representación E cuya función discriminante asociada Di(x), sea mayor. Debemos señalar que existen determinadas zonas del espacio en las que distintas funciones discriminantes pueden tomar el mismo valor, es decir, particiones del espacio que podrían pertenecer con la misma probabilidad a más de una clase. Estas zonas o regiones indefinidas se denominan fronteras de decisión, correspondiendo a los casos donde se cumple la siguiente igualdad:

Di(x) = Dj(x) j ≠ i i, j = 1,…, M

En el caso de los clasificadores basados en criterios de vecindad, la definición de una regla de clasificación δ se basa en la distribución de los prototipos del conjunto CE en un entorno de x suficientemente pequeño.

1.1.2 Representación de los Documentos

Los objetos tratados en la Minería de Textos son documentos textuales. Debido a que los distintos algoritmos que se analizarán serán aplicados en esta área, es preciso contar con una forma consistente de representar los documentos (su contenido). En este sentido, el formalismo más utilizado es el modelo vectorial [Salton, 1989]. En este modelo cada documento de la colección ξ está representado por un vector m-dimensional (m es el cardinal del conjunto de términos distintos presentes en la colección de documentos), en el que cada componente representa el peso del término asociado a esa dimensión, esto es, d = (w1,…, wm).

El peso wi representa una estimación (usualmente estadística, aunque no necesariamente) de la utilidad del término como descriptor del documento, es decir, de la utilidad para distinguir ese documento del resto de los documentos de la colección [Greengrass, 2001]. El peso del término ti en el documento d se representa como w(ti, d). Si ti no aparece en d entonces su peso es 0. Un término recibe un peso de 0 en los documentos en los cuales éste no ocurre.

Normalmente los términos muy comunes y los poco frecuentes son eliminados y las formas diferentes de una palabra son reducidas a su forma canónica. Para tomar en consideración documentos de diferentes longitudes, es usual que los vectores sean normalizados, aplicando diferentes técnicas de normalización. La mayoría de los vectores de documentos son dispersos.

Page 13: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

6

1.1.2.1 Esquemas de pesado de términos

De las diferentes técnicas existentes para determinar el peso de los términos de un documento, las siguientes son algunas de las más empleadas:

Booleano: Los pesos wi 0,1 indican la presencia o ausencia del término ti en el documento.

Frecuencia de un término o TF (Term Frequency) [Salton 1989]: Cada término tiene una importancia proporcional a la cantidad de veces que aparece en un documento, denotado por TF(ti, d). El peso del término ti en el documento d es w(ti, d) = TF(ti, d). Hay que señalar que es muy importante normalizar de alguna manera la frecuencia de un término en un documento para moderar el efecto de las altas frecuencias y para compensar la longitud del documento (en documentos más largos, previsiblemente aparecerá más veces cada término). Una de las técnicas más usada es la normalización por la longitud, que consiste en dividir cada frecuencia por la longitud del documento. Otra variante es la normalización del coseno, donde se divide cada valor por la norma euclidiana del vector del documento.

TF-IDF: Mientras el factor TF tiene que ver con la frecuencia de un término en un documento, el IDF (Inverse Document Frequency) tiene que ver con la frecuencia de un término en la colección de documentos. Así, la importancia de un término es inversamente proporcional al número de documentos que lo contiene:

w(ti, d) = TF(ti, d) IDF(ti)

IDF(ti) = log

donde df(ti) es el número de documentos de la colección ξ que contienen al menos una vez al término ti y N representa el total de documentos de la colección ξ. Es decir, mientras menos documentos contengan al término ti mayor es su IDF(ti). El factor TF(ti, d) contribuye a mejorar la relevancia y el factor IDF(ti) contribuye a mejorar la precisión, pues representa la especificidad del término, distinguiendo los documentos en los que éste aparece de aquellos en los que no aparece.

ltc: El pesado ltc [Salton, 1989] es una variante del esquema TF-IDF y se define como:

ltc = 1 log , log

Page 14: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

7

1.1.3 Medida de semejanza

Para determinar cuándo dos documentos son “parecidos” y cuándo no, es necesario definir una medida de semejanza que exprese el grado de parecido entre ellos. En la Minería de Textos es muy usual el empleo de la medida del coseno. Esta medida se define de la siguiente forma:

sem(di, dj) = cos(di, dj) = = ∑

∑ ∑

donde es la k-ésima componente del vector que representa al documento di, o sea w(tk, di), es decir, el peso del término tk en el documento di. El valor de esta medida se encuentra en el rango [0,1], de forma tal que mientras más cerca se encuentre del máximo, sem(di, dj) 1, más semejantes son los documentos di y dj.

1.2 Clasificadores basados en Criterios de Vecindad

En la Minería de Textos son ampliamente utilizados los clasificadores basados en criterios de vecindad. Estos clasificadores generalmente involucran tres pasos [Gil, 2006]:

(i) Encontrar la vecindad V(d) del documento d a clasificar, en el conjunto de entrenamiento CE.

(ii) Cálculo del voto. Cada clase ωi Ω, emite un voto Ψ(ωi) por el documento a clasificar.

(iii) Aplicar una regla de decisión Γ(d), en función a los votos emitidos por cada una de las clases.

El primer paso asume la definición de una vecindad que permita determinar las muestras del conjunto de entrenamiento que se considerarán para clasificar un nuevo documento d. Luego, basado en las muestras seleccionadas en el primer paso, cada clase emite un voto por el documento d. Por último, se aplica una regla de decisión para determinar en base a los votos de cada clase a cuál pertenece el nuevo documento. Debido a que cada uno de estos pasos puede realizarse de diferentes formas, combinarlos da origen a distintas reglas de clasificación o clasificadores.

Un aspecto a tener en cuenta es que la efectividad de estos clasificadores solamente se verá condicionada por la disponibilidad de un número suficientemente grande de prototipos en el

Page 15: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

8

conjunto de entrenamiento y que éstos hayan sido, como cabría esperar, correctamente clasificados. Desde un punto de vista práctico, la necesidad de disponer de un elevado número de prototipos para una aplicación efectiva de esta regla, puede llegar a convertirse en un serio inconveniente en cuanto al coste computacional requerido para buscar, dentro del conjunto de entrenamiento, los prototipos que conformarán la vecindad.

1.2.1 Construcción de la Vecindad

El clasificador del vecino más cercano (Nearest Neighbour, NN) es uno de los métodos estadísticos no paramétricos más conocidos y extensamente usados. Como extensión de este surge el clasificador de los k vecinos más cercanos (k-Nearest Neighbour, k-NN), el cual considera para clasificar un nuevo documento no sólo el documento más cercano, sino los k documentos más cercanos a él. Con el objetivo de eliminar la restricción que impone k-NN al fijar un número de vecinos aparece el clasificador αβ-NN, el cual sólo considera aquellos documentos que estén suficientemente cerca del documento a clasificar.

1.2.1.1 Vecindad de los k vecinos más cercanos

Uno de los clasificadores más difundidos en la literatura es la regla k-NN [Fix, 1951]. La idea fundamental sobre la que se apoya este clasificador es que muestras de una misma clase probablemente se encontrarán próximas en el espacio de representación. Para calcular la vecindad de un documento d considera un cierto número de prototipos (k) que se encuentren en un entorno suficientemente próximo a d.

A partir de un cierto conjunto de entrenamiento, CE = (d1, ω1), (d2, ω2),…, (dN, ωN), se puede definir la vecindad Vk(d) de un documento d E como el conjunto de prototipos que cumple:

Vk(d)

|Vk(d)| = k

p Vk(d), q - Vk(d) sem(p, d) > sem(q, d)

donde =

La expresión sem(· , ·) hace referencia a la semejanza entre dos documentos y es el conjunto de prototipos por cada clase. En definitiva, el significado de esta expresión se puede resumir en que la vecindad está conformada por los k prototipos, del conjunto de entrenamiento, más semejantes al nuevo documento d.

Page 16: Thesis Text Mining

En En es e

1.2

Unoprelos

la fig. 1.1 sela misma ci

el nuevo doc

Figura 1.1: V

.1.2 Vecin

o de los prifijar un númsiguientes in

(i) Los k v(fig. 1.2

(ii) Es posibespacio a d y evecinos

e muestra un, cj y ck son

cumento a se

Vecindad cal

dad αβ

incipales incmero k de donconvenient

ecinos más c2(a)).

ble que los kde represen

el resto no alejados de

n ejemplo delas clases e

er clasificado

culada media

convenientesocumentos a tes:

cercanos pu

k vecinos mántación, lo quse encuentrecisivos en la

el cálculo deen las que eso.

ante el clasific

s que presentener en cu

eden estar d

ás cercanos nue provoca en lo suficia clasificació

Ca

e la vecindadstá dividido e

cador de los k

nta el clasifiuenta para ca

demasiado lej

no estén homque pocos ventemente c

ón.

apítulo1. Fu

d mediante eel espacio d

k vecinos más

icador k-NNalcular la vec

ejos del docu

mogéneamenvecinos sean cerca (fig. 1

undamentos T

el clasificadoe representa

s cercanos (k =

N es la nececindad, la cu

umento d a c

nte distribuidrealmente s

1.2(b)), siend

Teóricos

9

or k-NN. ación y d

= 6).

sidad de ual sufre

clasificar

dos en el similares do estos

Page 17: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

10

(a) (b)

Figura 1.2: Inconvenientes de la vecindad de los k vecinos más cercanos.

El clasificador αβ-NN [Gil, 2006] aborda estos problemas y sólo considera los prototipos que se encuentran en un área lo suficientemente cercana y pequeña a la muestra d a ser clasificada. A diferencia del clasificador k-NN, el número de vecinos que forman parte de la vecindad no es fijo y los prototipos cuya semejanza con d es muy pequeña son descartados.

En el conjunto de entrenamiento CE = (d1, ω1), (d2, ω2),…, (dN, ωN), se puede definir la vecindad Vαβ (d) de un documento d E como el conjunto de prototipos que cumple:

Vαβ (d)

p Vαβ (d) sem(p, d)

p Vαβ (d) sem(p, d) sem(d, q) α

donde = y sem(d, q) =max … ,

Esta vecindad (fig. 1.3) tiene en cuenta a todos los prototipos que se encuentran en una región esférica con centro en d. Para poder definir esta región se utilizan los parámetros α y β.

Figura 1.3: Vecindad αβ.

Page 18: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

11

Durante el proceso de construcción de la vecindad todos aquellos prototipos del conjunto de entrenamiento cuya semejanza con d sea inferior a β son descartados. Para garantizar que en la vecindad de d sólo estén aquellos prototipos muy similares a él el radio de la región se ajusta automáticamente a partir del vecino más similar a d (representado por el punto blanco en la figura 1.3). Este radio es igual a la diferencia entre el parámetro α y el valor de la semejanza entre d y su vecino más cercano. En la figura, sólo los prototipos que se encuentren en la región sombreada formarán parte de la vecindad de d.

1.2.2 Métodos de Votación

Los métodos de votación asignan un voto por cada clase. El voto de una clase permite valorar cuán probable es que el documento a clasificar pertenezca a ella. El cálculo del voto se realiza teniendo en cuenta los elementos contenidos en la vecindad. Diferentes esquemas de votación han sido empleados en la literatura, a continuación se relacionan algunos de ellos.

Ψ(ωi) = ∑ (d, p) (1.1) Ψ(ωi) =∑ ,

(1.2)

Ψ(ωi) = ∑ ,

∑ , (1.3)

Donde i representa la clase, (d) los documentos de la clase i que pertenecen a la vecindad de d, sem(· , ·) la semejanza entre dos documentos y Ni el número de documentos en

(d).

El método de votación de la expresión 1.1 define el voto de una clase como la suma de las semejanzas entre el documento a clasificar d y los elementos de la clase que pertenecen a la vecindad. De esta forma, el voto de una clase depende del número de elementos de la clase que pertenecen a la vecindad y de cuán semejantes sean estos al documento a clasificar.

En la expresión 1.2 el voto de una clase se calcula como el promedio de las semejanzas entre el documento a clasificar y los documentos de la clase que pertenecen a la vecindad. En este método, a diferencia del anterior, no influye el número de documentos que posea la clase en la vecindad, sino cuán semejantes son estos al documento a clasificar. Esto impide que un número elevado de documentos poco semejantes a d determinen su clasificación.

Page 19: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

12

En el caso de la expresión 1.3 el voto de una clase se obtiene al dividir las semejanzas de d con los elementos de la clase en la vecindad entre el total de semejanzas de d con los elementos de la vecindad.

1.2.3 Reglas de Decisión

Una vez calculado el voto de cada una de las clases, se aplica una regla de decisión que permita determinar a cuáles clases pertenece el documento d. A continuación se expondrán algunas de estas reglas.

La regla Mayoría Simple considera que el documento pertenece a aquella clase cuyo voto es mayor al de las demás:

Γ(d) = ω’ ω Ω, Ψ(ω’) > Ψ(ω) (1.4)

La expresión 1.5 surge como una extensión de la regla anterior introduciendo un umbral mínimo exigido al voto de la clase para clasificar al nuevo documento.

Γ(d) = ω’ Ψ(ω’) > y ω Ω, Ψ(ω’) > (ω) (1.5)

Esta regla no tiene en cuenta el hecho de que un documento puede abordar más de una temática a la vez. Para dar solución a este problema se emplea la expresión:

Γ(d) = ω Ω | Ψ(ω) > (1.6)

Esta regla permite el uso de los clasificadores basados en vecindad en entornos donde existe solapamiento entre las diferentes clases del espacio.

1.3 Métodos de Condensado

Uno de los aspectos negativos que presentan los distintos clasificadores basados en vecindad radica en la necesidad de disponer de un elevado número de prototipos para su entrenamiento. Este hecho provoca que el proceso de búsqueda de los vecinos más cercanos sea computacionalmente costoso, limitando su aplicación en determinados problemas prácticos donde se requiere una respuesta rápida por parte del clasificador.

Con el objetivo de ampliar el campo de aplicaciones reales de las distintas reglas basadas en criterios de vecindad se han desarrollado diversas técnicas. Una de las alternativas más

Page 20: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

13

empleadas para acelerar el cálculo de la vecindad consiste en reducir el número de prototipos en el conjunto de entrenamiento sin originar un incremento del correspondiente error de clasificación. Estos métodos son conocidos como Algoritmos de Condensado, los cuales han sido ampliamente abordados en la Minería de Datos, pero no se ha estudiado con igual intensidad su aplicación en la Minería de Textos. Por ello, en este epígrafe nos referiremos a objetos de forma general y no a documentos.

De forma general, el objetivo de los métodos de condensado es reducir significativamente la cantidad de objetos en el conjunto de entrenamiento, con la menor afectación posible a la eficacia del clasificador.

En dependencia de la estrategia seguida por los métodos de condensado para construir el nuevo conjunto de entrenamiento, estos pueden ser clasificados en: incrementales, decrementales o por lotes [Wilson, 2000]. Los primeros inician con el conjunto condensado vacío y van agregando a este aquellos prototipos que cumplan un determinado criterio. Por el contrario, los que emplean una estrategia decremental o por lotes, tendrán inicialmente en el conjunto condensado todos los elementos del conjunto de entrenamiento y en cada paso determinan que prototipos o conjuntos de estos eliminar.

Según el origen de los objetos del conjunto condensado, estos métodos se pueden clasificar en: métodos de selección o de reemplazo [Bezdek, 2001]. Los primeros escogen los prototipos del conjunto de entrenamiento original, mientras que el resto, obtienen nuevos objetos aplicando sobre los elementos del conjunto de entrenamiento inicial una determinada función de transformación.

1.3.1 Condensado del Vecino más Cercano

El Condensado del Vecino más Cercano (Condensed Nearest Neighbors, CNN) [Hart, 1968] es considerado en la literatura como la primera propuesta formal de condensado para la regla de clasificación NN (Nearest Neighbour). Este método ha sido ampliamente usado tanto en investigaciones científicas como en aplicaciones prácticas. Según este método, un conjunto condensado deberá cumplir las propiedades de ser reducido y consistente. Se entiende por consistente un conjunto S X donde X ≠ , si al utilizar al subconjunto S como conjunto de entrenamiento, se puede clasificar correctamente a todo el conjunto X.

El algoritmo CNN se clasifica dentro de los métodos de selección incremental. El mismo se basa en la siguiente idea: para clasificar correctamente los objetos de una clase sólo es necesario mantener aquellos elementos cercanos a la frontera de decisión. De esta forma, se eliminan todos los elementos del interior de la clase, sin afectar la consistencia del conjunto condensado.

Page 21: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

14

Este algoritmo comienza seleccionando de manera aleatoria un objeto correspondiente a cada una de las distintas clases y se añaden a S (inicialmente S es un conjunto vacío). Posteriormente, cada elemento en el conjunto de entrenamiento X es clasificado con la regla NN empleando únicamente los objetos de S. Cuando un objeto es clasificado erróneamente, entonces éste se añade a S para garantizar que será clasificado correctamente. El proceso se repite hasta que no existan objetos en X que sean clasificados de manera errónea.

El algoritmo CNN puede ser descrito por los siguientes pasos:

Algoritmo: Condensed Nearest Neighbors (CNN)

Entrada: X Conjunto de entrenamiento

Salida: S Conjunto condensado

Método:

1- Inicialización: R X

2- Sea S conjunto formado inicialmente por un prototipo por clase.

3- Repetir:

3.1- Para cada prototipo xi R:

3.1.1- Si xi es mal clasificado utilizando la regla NN y los objetos

del conjunto S entonces hacer:

R = R - xi

S = S xi

4- Hasta que no haya cambios en R o R =

5- Devolver S

Para quedarse con los elementos fronterizos, el algoritmo propuesto por Hart agrega al conjunto S los prototipos que fueron mal clasificados por la regla NN. Considera que si un elemento es incorrectamente clasificado, se deberá probablemente al hecho de encontrarse próximo a la frontera de decisión.

Este algoritmo es muy sencillo de implementar y rápido (su coste computacional es lineal con respecto a la talla de X en cada iteración); en la práctica, se obtiene un conjunto consistente después de muy pocas iteraciones. Por otra parte, la talla del conjunto condensado resulta, en

Page 22: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

15

la mayoría de los casos, considerablemente pequeña comparada con el tamaño del conjunto original, siempre y cuando en éste no exista solapamiento entre las regiones de clases distintas.

Entre los aspectos negativos de este algoritmo se puede señalar que:

1. No es posible afirmar que se obtiene el subconjunto consistente mínimo del conjunto original, pues su construcción depende del orden en que se analicen los prototipos del conjunto inicial, pudiéndose obtener diferentes resultados en cada corrida y de distintos tamaños, siendo todos consistentes.

2. Este método es sensible al ruido (objetos que pertenecen a una clase pero se encuentran en el espacio de otra), ya que todo prototipo ruidoso será clasificado erróneamente y por tanto será incluido en el conjunto condensado S, impidiendo una reducción considerable sin aportar información relevante al clasificador.

1.3.2 Reducido del Vecino más Cercano

El algoritmo Reducido del Vecino más Cercano (Reduced Nearest Neighbors, RNN) [Gates, 1972] realiza una extensión decremental del algoritmo CNN. El RNN es un procedimiento de condensado iterativo con el fin de eliminar de un conjunto consistente, obtenido a partir del algoritmo CNN, aquellos prototipos que no resulten necesarios para mantener la propiedad de consistencia.

En este algoritmo se aplica primeramente el algoritmo CNN al conjunto de entrenamiento X. Luego, del conjunto S obtenido, se elimina cada objeto que no sea necesario para clasificar correctamente todos los elementos del conjunto original X. Este es un método de selección que emplea una estrategia decremental para construir el nuevo conjunto de entrenamiento.

El algoritmo RNN se puede escribir de la siguiente forma:

Algoritmo: Reduced Nearest Neighbors (RNN)

Entrada: X Conjunto de entrenamiento

Salida: S Conjunto condensado

Método:

1- Inicialización: S , T X

2- Aplicar el algoritmo CNN al conjunto T

3- Para cada prototipo si S (conjunto resultante del paso anterior)

Page 23: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

16

3.1- S = S - si

3.2- Para cada prototipo xi X:

3.2.1- Si xi es mal clasificado utilizando la regla NN y los objetos

del conjunto S entonces hacer:

S = S si e ir al Paso3

4- Devolver S

Este método de condensado, en la mayoría de los casos, reduce más el conjunto de entrenamiento que el algoritmo CNN, aunque las diferencias suelen ser poco significativas. Además, no asegura que el subconjunto consistente que se obtiene es mínimo y los resultados que se logran durante el proceso de clasificación son similares a los obtenidos por el algoritmo CNN. Este método, al igual que el CNN, depende del orden de presentación de los objetos y es sensible a la presencia de ruido.

1.3.3 Subconjunto Consistente Mínimo

Un paso importante para la obtención del subconjunto mínimo consistente fue dado en [Dasarathy, 1994], donde se presenta el algoritmo Subconjunto Consistente Mínimo (Minimal Consistent Subset, MCS). El mismo se basa en el concepto de subconjunto de vecinos más cercanos de clase diferente (Nearest Unlike Neighbour Subset, NUNS) [Dasarathy, 1991]. En el algoritmo MCS la consistencia se asegura al considerar que, para clasificar correctamente un elemento del conjunto de entrenamiento, sólo es necesario tener en el conjunto condensado una muestra de su misma clase que sea más cercana a él que su vecino más cercano de clase diferente (Nearest Unlike Neighbour, NUN).

Este algoritmo consiste en seleccionar aquellos elementos que aseguren la correcta clasificación (según la regla NN) de la mayor cantidad de objetos de su clase. Primero se calcula el número de objetos que soporta cada elemento del conjunto de entrenamiento (un objeto y soporta a uno x, si la distancia entre y y x es inferior a la distancia entre x y su NUN). Estos elementos son ordenados descendentemente según la cantidad de objetos que soportan, y el primero es elegido. Luego se eliminan los objetos que ya son soportados por el seleccionado y se repite el paso anterior, hasta que ya no puedan eliminarse más objetos. En este conjunto resultante, varios objetos ya fueron eliminados, por lo que los NUN posiblemente cambiaron y se repite todo el proceso nuevamente con los nuevos objetos.

Una forma de expresar el algoritmo MCS puede ser la siguiente:

Page 24: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

17

Algoritmo: Minimal Consistent Subset (MCS)

Entrada: X Conjunto de entrenamiento

Salida: S Conjunto condensado

Método:

1- Inicialización: S , T X

2- Para cada prototipo xi X:

2.1- , inicializar el conjunto de objetos que soporta

3- Para cada prototipo xi X:

3.1- Calcular el vecino más cercano de clase diferente de xi en T ( )

3.2- Calcular los prototipos de T más cercanos a xi que ( )

3.3- Para cada prototipo yi :

3.3.1- = xi

3.4- Si = xi:

3.4.1- S = S xi

4- El prototipo que soporte un mayor número de objetos se agrega a :

4.1- mvs max | |

4.2- S = S xi

5- Para cada prototipo vi Vmvs:

5.1- Para cada prototipo xi X:

5.1.1- Si vi : = - vi

6- Si queda algún prototipo xi tal que , ir a 4

7- Mientras |T|>|S| hacer: T S, S e ir a 2

Este es un método de selección que se vale de una estrategia incremental para construir el conjunto condensado. El mismo no depende del orden en que se presenten los objetos y obtiene un conjunto consistente, que aunque no es siempre el mínimo, sí es de cardinal pequeño (en [Wilfong, 1991] se demostró que encontrar el conjunto consistente mínimo es un problema NP-completo). Además, su sensibilidad al ruido es inferior a los métodos

Page 25: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

18

anteriormente explicados. Como aspecto negativo se le puede señalar que modifica ligeramente, en algunos casos, las fronteras de decisión entre las clases.

1.3.4 Subconjunto Selectivo Modificado

El algoritmo Subconjunto Selectivo Modificado (Modified Selective Subset, MSS) [Barandela, 2005] es una modificación realizada al algoritmo Subconjunto Selectivo (SS) propuesto en [Ritter, 1975]. En este último se extiende el concepto de conjunto consistente agregando una condición más fuerte, conocida como propiedad selectiva. Esta propiedad permite obtener el conjunto condensado de forma independiente al orden de presentación de los objetos. Surge así el concepto de conjunto selectivo, el cual se puede expresar de la siguiente manera:

Un subconjunto T del conjunto de entrenamiento CE es un subconjunto selectivo (SS), si satisface las siguientes condiciones:

(i) T es consistente.

(ii) Todos los prototipos en el conjunto de entrenamiento original están más cercanos a un vecino selectivo (un miembro de SS) de la misma clase que a cualquier prototipo de una clase diferente.

El algoritmo SS tiene como objetivo calcular el subconjunto selectivo mínimo del conjunto de entrenamiento. Para ello se basa, a parte del concepto de conjunto selectivo, en otras definiciones. Entre ellas se encuentra la del vecino relacionado, en la misma se plantea que un prototipo xj es un vecino relacionado con otro prototipo xi, ambos de la misma clase, si xj es más cercano a xi que el enemigo más cercano de xi. En la literatura, el enemigo más cercano es nombrado también NUN (vecino más cercano de clase diferente, por sus siglas en inglés). Otra definición utilizada es la de vecindad relativa, en la cual se considera como vecindad relativa de xi al conjunto de todos los vecinos relacionados con xi, siendo representada mediante Yi.

Haciendo uso de las definiciones anteriores, el subconjunto selectivo mínimo se puede expresar como el subconjunto más pequeño del conjunto de entrenamiento, el cual contiene al menos un miembro de Yi para cada prototipo xi del conjunto de entrenamiento.

El propósito de MSS es obtener un subconjunto selectivo, no necesariamente el mínimo, con prototipos más cercanos a la frontera de decisión que los obtenidos por SS y con menor costo computacional. Para ello sustituye el concepto de subconjunto selectivo por el de subconjunto selectivo modificado. El cual se puede expresar como el subconjunto del conjunto de entrenamiento CE que contiene, para todo xi del CE, aquel elemento de Yi más cercano al NUN de xi.

Page 26: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

19

Para obtener el conjunto condensado S, el algoritmo MSS, por cada clase ωi en que se divide el conjunto de entrenamiento X, busca el vecino más cercano de clase diferente de cada prototipo xi que la conforma ( ). Luego calcula la vecindad relativa Yi de cada xi y agrega a S el prototipo de Yi más cerca a .

El algoritmo MSS está conformado por los siguientes pasos:

Algoritmo: Modified Selective Subset (MSS)

Entrada: X Conjunto de entrenamiento

Salida: S Conjunto condensado

Método:

1- Inicialización: S

2- Para cada clase ωi Ω (clases en que se divide X):

2.1- Para cada prototipo xi de la clase ωi:

2.1.1- Calcular el enemigo más cercano de xi ( )

2.1.2- Calcular la vecindad relativa de xi (Yi)

2.1.3- Sea xj Yi, el vecino relacionado de xi más cercano a :

S = S xj

Este algoritmo selecciona objetos del conjunto de entrenamiento original y construye el conjunto condensado de forma incremental. Su resultado no depende del orden de presentación de los objetos y aunque no obtiene siempre un conjunto selectivo menor que el SS, sí asegura una mejor representación de las fronteras de decisión que este, lo que permite lograr mejores resultados en la clasificación. Este método al igual que los anteriores no considera el caso de solapamiento entre las clases y su desempeño puede verse afectado por la presencia de ruido en el conjunto de entrenamiento.

1.4 Algoritmos de Agrupamiento

Los algoritmos de agrupamiento se han empleado en un gran número de tareas de la Minería de Textos. En este epígrafe se mostrarán algunos de los más utilizados en esta área, los cuales formarán parte de nuestra propuesta.

Page 27: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

20

El objetivo de los algoritmos de agrupamiento es, dado un conjunto de n documentos descritos a través de m rasgos, crear particiones o cubrimientos de este conjunto. La estructuración obtenida debe cumplir que la semejanza de los documentos dentro de un mismo grupo sea máxima mientras que la semejanza entre los documentos pertenecientes a grupos diferentes sea mínima. El problema así planteado es NP-duro, pues para obtener la solución hay que buscar todas las combinaciones posibles de grupos a formar. Por ejemplo, la cantidad de

particiones de tamaño k de un conjunto de n documentos es aproximadamente igual ! [Duda,

1973]. En la práctica se utilizan distintas heurísticas que tratan de maximizar la semejanza intra-grupo y/o minimizar la semejanza inter-grupo.

Debido a la gran diversidad de algoritmos de agrupamiento existentes se han creado varias clasificaciones de los mismos atendiendo a distintos aspectos. Atendiendo a la forma en que procesan los documentos, los algoritmos de agrupamientos se pueden clasificar en: estáticos, incrementales o dinámicos. Considerando la pertenencia de los documentos a los grupos en: disjuntos o solapados. También se pueden clasificar atendiendo al mecanismo en que se basan para agrupar, quedando divididos en: algoritmos de pasada simple, basados en grafos, de optimización, basados en densidad o basados en árboles.

1.4.1 Algoritmos de pasada simple

Los algoritmos de pasada simple procesan los documentos uno a uno y los comparan con los grupos existentes. Si existen grupos que cumplan cierto criterio de semejanza con el nuevo documento, éste se coloca en el grupo más semejante. En caso contrario, se crea un nuevo grupo con ese documento. También existen variantes que colocan al nuevo documento en todos aquellos grupos que satisfacen el criterio de semejanza, creando grupos solapados en lugar de disjuntos. En general, estos algoritmos definen una función de semejanza entre un documento y un grupo y fijan un cierto umbral para controlar la asignación de los documentos a los grupos.

1.4.1.1 Algoritmo SinglePass

El SinglePass [Hill, 1968] es el más utilizado de la familia de los algoritmos de agrupamientos de pasada simple. Este algoritmo calcula la semejanza del nuevo documento con cada grupo a través de su representante, el cual se calcula como la media de los documentos pertenecientes al grupo. Si no existen grupos cuya semejanza es mayor que un umbral β, se crea un grupo que contiene solamente al nuevo documento. En caso contrario, el nuevo documento se asigna al grupo más semejante.

Page 28: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

21

Este algoritmo se puede describir por los siguientes pasos:

Algoritmo: SinglePass

Entrada: C Colección de documentos a agrupar

β Umbral mínimo de semejanza

Salida: G Conjunto de grupos

Método:

1- Inicialización: G

2- Para cada documento di C:

2.1- MS (grupos semejantes a di)

2.2- Para cada grupo gj G:

2.2.1- Calcular la semejanza entre di y el representante de gj

2.2.2- Si dicha semejanza es mayor que β, entonces:

MS = MS gj

2.3- Si MS ≠ , colocar di en el gj MS cuyo representante fue el más

semejante a di:

gj = gj di

Si no, formar un nuevo grupo con di:

gk = di

2.4- G = G gk

Una variante de este algoritmo consiste en agregar el nuevo documento a todos los grupos con cuyos representantes posee una semejanza mayor que el umbral. Obteniendo grupos solapados en vez de disjuntos.

Este algoritmo presenta como principal ventaja el ser muy rápido, pues posee una complejidad lineal (O(n)) con respecto al número de documentos. Sus principales limitaciones son: la dependencia de los grupos del orden de presentación de los documentos, la asignación de los documentos a los grupos es irrevocable y se restringe la forma de los grupos a esféricas o elipsoidales.

Page 29: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

22

1.4.2 Algoritmos basados en grafos

Los algoritmos de agrupamiento basados en grafos, construyen un cubrimiento de un subgrafo del grafo de semejanzas. Estos algoritmos permiten trabajar con documentos descritos por variables cuantitativas y cualitativas mezcladas, incluso con ausencia de información y no imponen restricciones a la función de semejanza entre documentos.

Se llama grafo de semejanzas al grafo completo donde los vértices son los documentos a agrupar y las aristas se etiquetan con las semejanzas entre los documentos. Dos documentos cuya semejanza es mayor o igual que un cierto umbral β (definido por el usuario) se denominan β-semejantes [Shulcloper, 2002]. Si un documento no es β-semejante con ningún otro documento se denomina β-aislado. Muchos algoritmos de agrupamiento de este tipo se basan en la construcción del grafo de β-semejanza (fig. 1.4(a)). Este grafo es un subgrafo del grafo de semejanzas donde se eliminan las aristas con peso menor que β, es decir, sólo están conectados los documentos β-semejantes.

Del grafo de semejanzas se puede obtener además el grafo de máxima β-semejanza (fig. 1.4(b)), el cual es un grafo orientado donde los vértices son los documentos a agrupar y existe un arco del vértice di al vértice dj si se cumple que dj es el documento más semejante a di y dicha semejanza supera el umbral β (dj es el más β-semejante a di). Denotaremos como max-S (fig. 1.4(c)) al grafo que se obtiene del grafo de máxima β-semejanza ignorando la orientación de sus arcos.

(a) Grafo de β-semejanza, (b) Grafo de máxima (c) Grafo max-S. donde β = 0,4. β-semejanza.

Figura 1.4: Grafos basados en la β-semejanza.

Page 30: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

23

1.4.2.1 Algoritmo GLC

Dentro de los algoritmos de agrupamientos basados en grafos el GLC [Shulcloper, 2002] se destaca por su simplicidad conceptual. Este algoritmo obtiene de forma incremental las componentes conexas del grafo de β-semejanza. Cada vez que llega un nuevo documento, se compara con los documentos de los grupos existentes. Si el nuevo documento no es β-semejante con ningún documento de los grupos existentes, se crea un nuevo grupo unitario con ese documento. En caso contrario, todos los grupos para los cuales existe al menos un documento β-semejante con el nuevo documento se unen y forman un nuevo grupo al que se agrega también el nuevo documento.

El algoritmo GLC está conformado por los siguientes pasos:

Algoritmo: GLC

Entrada: C Colección de documentos a agrupar

β Umbral mínimo de semejanza

Salida: G Conjunto de grupos

Método:

1- Inicialización: G

2- Para cada documento di C:

2.1- L (lista de grupos a unir)

2.2- Para cada grupo gk G:

2.2.1- Para cada documento dj gk:

2.2.1.1- Calcular la semejanza entre di y el dj.

2.2.1.2- Si dicha semejanza es mayor que β, entonces:

L = L gk, ir a 2.2

2.3- Si L ≠ , unir todos los grupos que están en L en un grupo

y agregar di a él

Sino, formar un nuevo grupo con di: gk = di

2.4- G = G gk

Page 31: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

24

Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2), pues para cada nuevo documento hay que calcular su semejanza con los restantes. No obstante, es bueno destacar que en este algoritmo, en muchos casos, no se requiere comparar al nuevo documento con todos los documentos de los grupos existentes. Esto es debido a que en cuanto se encuentra en un grupo con un documento β-semejante al nuevo, no se necesita comparar con los restantes documentos de dicho grupo, por lo que, en el mejor de los casos, su complejidad es O(n).

El algoritmo GLC es independiente del orden de presentación de los documentos y no impone restricciones a la forma de los grupos obtenidos. Su mayor limitación es que las componentes conexas sobre el grafo de β-semejanza presentan un elevado efecto de encadenamiento, por lo que pueden obtenerse grupos de documentos poco cohesionados, esto es, grupos con formas “alargadas" que incluyan documentos poco semejantes.

1.4.2.2 Algoritmo Compacto Incremental

El algoritmo de agrupamiento Compacto Incremental [Pons, 2002] obtiene de forma incremental los conjuntos compactos de una colección de documentos. Los conjuntos compactos coinciden con las componentes conexas del grafo max-S. Este algoritmo almacena para cada documento su máxima β-semejanza (MaxSem), los documentos que son los más β-semejantes a él (AEl) y los documentos de los que él es su más β-semejante (DeEl).

Cada vez que se presenta un nuevo documento, se calcula su semejanza con los documentos de los grupos existentes y se actualiza el grafo. La llegada del nuevo documento puede provocar cambios en el agrupamiento, pues algunos de los conjuntos compactos existentes pierden esta propiedad y surgen otros nuevos. Por tanto, al finalizar la actualización del grafo de máxima β-semejanza, se reconstruyen los conjuntos compactos a partir del nuevo documento y de los documentos que pertenecen a los grupos que pueden perder la propiedad de ser compacto. Los conjuntos compactos que no tienen documentos conectados con el nuevo documento no se modifican.

Durante la actualización del grafo max-S, el algoritmo construye los siguientes conjuntos:

GruposAProcesar: Un grupo pertenece a este conjunto si tiene algún documento d’ que cumple las condiciones siguientes:

(i) El nuevo documento es el más β-semejante a d’ y los documentos existentes que eran sus más β-semejantes dejan de serlo.

Page 32: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

25

(ii) d´ tenía al menos dos documentos que eran sus más β-semejantes o d´ es el más β-semejante a uno o más documento de ese grupo.

A este conjunto pertenecen los grupos que potencialmente pueden dejar de ser compactos cuando se eliminan de ellos los documentos d´ que cumplen las condiciones anteriores y, por lo tanto, deben ser reconstruidos.

DocumentosAUnir: Un documento d´ pertenece a este conjunto si cumple las condiciones siguientes:

(i) El nuevo documento es el más β-semejante a d´ y el único documento más β-semejante a d´ deja de serlo.

(ii) d´ no es el más β-semejante a ningún documento de su grupo.

Los elementos incorporados al conjunto DocumentosAUnir pertenecerán al mismo grupo que el nuevo documento.

GruposAUnir: Un grupo pertenece a este conjunto si no pertenece a GruposAProcesar y tiene al menos un documento d´ que cumple una de las condiciones siguientes:

(i) d´ es el más β-semejante al nuevo documento.

(ii) El nuevo documento se incorpora al conjunto de documentos más β-semejantes a d´, es decir, el nuevo documento está conectado con d´ y no se rompe ningún arco de d´ en el grafo de máxima β-semejanza.

Todos los documentos que pertenecen a los grupos del conjunto GruposAUnir formarán parte del mismo grupo que el nuevo documento.

El algoritmo Compacto Incremental se puede describir entonces como:

Algoritmo: Compacto Incremental

Entrada: C Colección de documentos a agrupar

β Umbral mínimo de semejanza

Salida: G Conjunto de grupos

Método:

1- Inicialización: G

2- Para cada documento di C:

2.1- Actualización del grafo de máxima β-semejanza

Page 33: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

26

2.1.1- Calcular la semejanza con cada documento existente

2.1.2- Calcular MaxSem(di), AEl(di), DeEl(di) y actualizarlos en los

documentos que se modifican

2.1.3- Crear los conjuntos GruposAProcesar, GruposAUnir y

DocumentosAUnir. Cada vez que se incorpora un documento a

DocumentosAUnir se elimina del grupo al que pertenecía

2.2- Reconstrucción de los conjuntos compactos

2.2.1- Sea C el conjunto formado por el nuevo documento y todos los

documentos que pertenecen a los grupos de GruposAProcesar

2.2.2- Formar los conjuntos compactos existentes entre los documentos

de C y añadirlos a la lista de grupos existentes

2.2.3- Añadir al conjunto compacto al que pertenece el nuevo

documento, todos los documentos de DocumentosAUnir y todos

los que pertenecen a los grupos de GruposAUnir

2.2.4- Eliminar los grupos de GruposAProcesar y de GruposAUnir de la

lista de grupos existentes

Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2), pues para cada nuevo documento hay que calcular su semejanza con los restantes. Los grupos que descubre este algoritmo poseen formas arbitrarias y el agrupamiento obtenido no depende del orden de presentación de los documentos y es poco sensible al parámetro de entrada β. Además, los grupos formados son disjuntos y más cohesionados y pequeños que los formados por las componentes conexas basadas solamente en la β-semejanza, lo cual reduce considerablemente el efecto de encadenamiento.

1.4.2.3 Algoritmo Estrellas Grado

El algoritmo Estrellas Grado [Gil, 2008] trata de obtener de forma incremental el conjunto dominante mínimo del grafo de β-semejanzas. El cual es el menor subconjunto de vértices del grafo, tal que, todos los vértices del grafo están en él o tienen al menos un vecino. A los elementos del conjunto dominante mínimo se les denomina estrellas y a sus vecinos satélites. Obtener el conjunto dominante mínimo es un problema NP-duro. Por tanto, el algoritmo

Page 34: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

27

utiliza una estrategia voraz (greedy) para construir un cubrimiento del grafo de β-semejanza mediante subgrafos en forma de estrella.

La estrategia utilizada para encontrar el conjunto dominante mínimo consiste en seleccionar los vértices que cubren al mayor número de vértices que no han sido cubiertos previamente. Un grafo en forma de estrella de k + 1 vértices consiste en una estrella, que formará parte del conjunto dominante, y k satélites. Cada subgrafo en forma de estrella del grafo de β-semejanza forma un grupo (fig. 1.5). Los documentos de mayor conectividad en el grafo son estrellas. Los documentos aislados también son estrellas.

Figura 1.5: Subgrafos con forma de estrella, donde A, B, C (estrellas) son vértices que pertenecen al conjunto dominante encontrado y el resto de los vértices son satélites.

El algoritmo Estrellas Grado se puede describir por los pasos:

Algoritmo: Estrellas Grado

Entrada: C Colección de documentos a agrupar

β Umbral mínimo de semejanza

Salida: G Conjunto de grupos

Método:

1- Inicialización: G , Q (Cola de documentos a ser analizados)

2- Para cada documento di C:

2.1- Actualizar el grafo de β-semejanza, sea NA el conjunto

de las nuevas aristas

2.2- Q = Q di

2.3- Agregar a Q todas las vértices s tal que v, v’, (v, v’) NA

y v sea vecino de s. Agregar a Q todos los vecinos de s y

si s es una estrella marcarla como satélite

Page 35: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

28

2.4- Mientras Q ≠ :

2.4.1- Extraigo de Q el vértice v de mayor grado

2.4.2- Si v es satélite y no tiene ninguna estrella vecina de grado

mayor, hacer:

2.4.2.1- Marcar a v como estrella

2.4.2.2- Si v tiene estrellas vecinas de menor grado,

marcarlas como satélites y poner en Q todos los

vecinos de dichas estrellas

Este algoritmo garantiza una semejanza de al menos β entre la estrella y todos los documentos del grupo (sus satélites), pero el valor de semejanza no se garantiza entre los satélites. La complejidad temporal de este algoritmo es O(n2), pues hay que calcular la semejanza entre todos los documentos. Los grupos obtenidos son solapados, pues un documento puede ser satélite de más de una estrellas y dos estrellas ser vecinas. Los grupos obtenidos no dependen del orden de presentación de los documentos. Además, este algoritmo no presenta el efecto de encadenamiento.

1.5 Filtrado Adaptativo de Documento

Un Sistema de Filtrado de Documentos monitorea un flujo de información textual con el objetivo de encontrar aquellos documentos que satisfacen las necesidades de información de un usuario. Estos sistemas, por cada nuevo documento deben determinar si entregan o no el documento al usuario en función de cuánto empareja la información del documento con la necesidad de información expresada por el usuario.

Los sistemas de Filtrado Adaptativo de Documentos son sistemas de filtrado capaces de actualizar su conocimiento sobre la necesidad de información del usuario. Para ello, se basan en la retroalimentación explícita o implícita del mismo. Esta retroalimentación provee al sistema de muestras que le permiten ajustar el perfil del usuario (representación de la necesidad informacional expresada por el usuario), facilitando así el aprendizaje en línea.

En un entorno real, inicialmente el conocimiento que se tiene de la necesidad de información del usuario es muy escaso, por tal razón, se espera que los sistemas de Filtrado Adaptativo de Documentos sean capaces de comenzar su tarea de clasificación con muy pocas muestras de entrenamiento. Esto hace que la tarea sea particularmente difícil, debido a que los algoritmos

Page 36: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

29

tradicionales de aprendizaje requieren de un número considerable de muestras para la construcción del clasificador.

1.5.1 Esquema General de un Sistema de Filtrado Adaptativo de Documentos

En la siguiente imagen se puede apreciar el esquema general de un sistema de Filtrado Adaptativo de Documentos, aunque en la misma sólo se muestra un solo usuario con el fin de facilitar su comprensión, estos sistema pueden manipular las necesidades de varios usuarios simultáneamente.

Figura 1.6: Esquema general de un sistema de Filtrado Adaptativo de Documentos.

Cuando un usuario tiene una nueva necesidad de información debe brindar al sistema algunos documentos de ejemplos que aborden la temática de su interés. Con estos documentos el sistema crea un nuevo perfil para comenzar a dar atención a esta solicitud. A medida que van arribando nuevos documentos, el sistema analiza cada uno de ellos y brinda al usuario aquellos documentos para los cuales determinó que su contenido concuerda con la información almacenada en el perfil. Es importante destacar que el usuario tiene acceso sólo a los documentos que el sistema recupera como relevantes para el perfil. El usuario debe leer los documentos brindados y retroalimentar al sistema de forma explícita identificando cuáles de los documentos recuperados realmente se ajustan a su necesidad de información y cuáles no. En una aplicación real, el sistema puede aprovechar determinadas acciones del usuario, como puede ser borrar un documento sin leerlo o salvarlo a disco, para utilizarla como

Page 37: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

30

retroalimentación implícita. El sistema con esta retroalimentación se mantiene actualizando el perfil de forma constante.

La retroalimentación permite al sistema actualizar de forma constante el perfil y de esta manera obtener nuevas muestras de entrenamiento para el aprendizaje en línea. Estos sistemas deben ser capaces de aprovechar al máximo la retroalimentación brindada, con vistas a obtener un perfil que realmente se ajuste a los intereses de información del usuario, evitando abrumarlo con información irrelevante y “falsas alarmas”.

1.5.2 Estructura de un Sistema de Filtrado Adaptativo de Documentos

Varios enfoques relacionados con el Filtrado Adaptativo han sido reportados en la literatura. Estos enfoques se dividen en dos grandes grupos, los que afrontan el problema como una tarea de Recuperación de Información más actualización de umbral y los que lo afrontan como una tarea de Categorización de Textos. Entre los sistemas desarrollados para el Filtrado Adaptativo de Documentos podemos destacar el sistema del Consorcio KerMIT [Cancedda, 2003], el sistema de la Academia de Ciencias de China [Xu, 2002], LR Rocchio [Zhang, 2004], CLARIT [Zhai, 1998], entre otros. Se considera que las componentes principales de un Sistema de Filtrado Adaptativo de Documentos son las siguientes [Fonseca, 2008]:

Un modelo de representación de los documentos.

Un modelo de representación del perfil.

Un algoritmo de clasificación.

Un método de actualización del perfil.

El modelo vectorial [Salton, 1989] ha sido uno de los modelos de representación de documentos más empleados en la tarea del filtrado adaptativo. Una representación alternativa que ha ido alcanzando un gran auge es la basada en los modelos de lenguaje. Un modelo de lenguaje M permite estimar la probabilidad de observar o generar una frase s con dicho modelo.

La mayoría de los Sistemas de Filtrado Adaptativo de Documentos representan el perfil por medio de un vector, el cual se construye a partir de las muestras de entrenamiento suministradas al sistema. La construcción de este vector, en muchos casos, se realiza utilizando centroides, asumiendo que los documentos se encuentran homogéneamente distribuidos a su alrededor. Otros sistemas representan el perfil por medio de un conjunto de

Page 38: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

31

documentos. Esta representación les permite poder aprender la distribución de los documentos que forman el perfil. Por último, los sistemas que utilizan modelos de lenguaje representan el perfil por medio de dos modelos, uno construido a partir de las muestras relevantes y otro construido a partir de las muestras no relevantes.

Varios algoritmos de clasificación han sido utilizados en los sistemas de Filtrado Adaptativo de Documentos para determinar cuándo entregar o no un documento al usuario. Entre los más utilizados encontramos el algoritmo de Rocchio [Allan, 1996], el algoritmo de Winnow [Littlestone, 1988], las máquinas de vectores soporte (SVM - Support Vector Machines) [Vapnik, 1995] y el clasificador k-NN [Fix, 1951].

Los métodos de actualización del perfil constituyen un elemento fundamental en los Sistemas de Filtrado Adaptativo de Documentos. Estos métodos permiten al sistema ajustarse mejor a las necesidades de información del usuario y con ello poder aumentar su efectividad. De forma general, este proceso incluye un conjunto de tareas entre las que se encuentran la actualización de la representación de los documentos que pertenecen al perfil, la actualización de estructuras internas del sistema, el ajuste de los umbrales y parámetros que utiliza el algoritmo, entrenar nuevamente el clasificador utilizado, entre otras. No en todos los casos se realizan todas estas tareas. En dependencia del tipo de representación del perfil utilizada y del clasificador empleado en el sistema serán los pasos que debe seguir el algoritmo para realizar la actualización del perfil de usuario.

1.5.3 Algoritmo de Filtrado Adaptativo de Documentos

El algoritmo propuesto en [Fonseca, 2008] pertenece al grupo de enfoques que afrontan el problema del filtrado adaptativo como una tarea de Categorización de Textos. Este algoritmo enfrenta el problema de la distribución irregular de los documentos representando el perfil por medio de un conjunto de documentos. De esta forma el algoritmo es capaz de aprender la distribución de los documentos en el perfil. El conjunto de documentos que conforman cada perfil está dividido en dos clases: Relevantes y No Relevantes. Estas clases se construyen empleando los documentos de muestras iniciales y aquellos con los cuales el usuario retroalimenta al sistema. Para representar los documentos se utiliza el modelo vectorial y el peso de un término t en un documento d se calcula mediante la expresión:

w(t, d) = 1 log ,

Page 39: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

32

donde TF(t, d) representa la frecuencia del término t en el documento d, dfR (ti) y dfNR(ti) representan la cantidad de documentos relevantes y no relevantes respectivamente que contienen al menos una vez al término ti. NR y NNR representan el total de documentos relevantes y no relevantes respectivamente en el perfil.

Este algoritmo utiliza un clasificador basado en vecindad. Para calcular la vecindad es empleada la regla αβ-NN. El cálculo del voto y la regla de decisión están dados por las expresiones 1.1 del epígrafe 1.2.2 y 1.6 del epígrafe 1.2.3 respectivamente. Cada vez que llega un nuevo documento se clasifica utilizando como conjunto de entrenamiento los documentos de las clases Relevantes y No Relevantes que representan al perfil. Si el clasificador asigna el documento a la clase Relevante, este es entregado al usuario. Este proceso se realiza para cada perfil presente en el sistema.

El perfil se actualiza cada vez que el usuario brinda retroalimentación al sistema indicando cuándo un documento recuperado es realmente relevante o no. Durante el proceso de actualización se adiciona el documento a la clase correspondiente, Relevante o No Relevante, y se calcula el peso de los términos en los documentos.

De forma general, el proceso de filtrado según el método propuesto en [Fonseca, 2008] se puede expresar por el siguiente algoritmo:

I. Construcción de los perfiles iniciales P Por cada perfil P:

i. Construir la clase Relevante con los documentos asignados por el usuario La clase No Relevante estará inicialmente vacía

ii. Calcular el peso de cada término de los documentos presentes en el perfil

II. Proceso de clasificación. Por cada documento d que arriba:

Por cada perfil P: i. Para cada término t d calcular su peso

ii. Construir la vecindad αβ iii. Calcular el voto de cada clase (Relevante y No Relevante) iv. Si al aplicar la regla de decisión se asigna d a la clase Relevante, entregar

d al usuario

III. Actualización de los perfiles P Para cada perfil P en el que se tiene retroalimentación del documento d:

Page 40: Thesis Text Mining

Capítulo1. Fundamentos Teóricos

33

i. Asignar d a la clase correspondiente ii. Actualizar el peso de los términos de todos los documentos del perfil

Este algoritmo considera que la representación de los documentos en un perfil no debe suponer una distribución homogénea de los mismos y que la clasificación de un nuevo documento solo está determinada por los documentos del perfil suficientemente cercanos a él. Además, que el peso de un término está influenciado por su frecuencia en el documento al que pertenece, pero también por su frecuencia entre los documentos de las clases Relevante y No Relevante.

Page 41: Thesis Text Mining

34

Capítulo 2

Empleo de Algoritmos de Agrupamiento como métodos de condensado

Los clasificadores basados en vecindad han sido extensamente empleados en las tareas de Minería de Textos gracias a su relativa simplicidad de implementación y los buenos resultados que obtienen durante el proceso de clasificación. Uno de los aspectos singularmente negativos asociados a las distintas variantes conocidas de este tipo de clasificadores radica en la necesidad de disponer de un conjunto de entrenamiento relativamente grande con el fin de obtener buenos resultados. Esto conlleva a que el cálculo de la vecindad sea computacionalmente costoso, lo que podría imposibilitar su aplicación en determinados problemas reales donde es necesaria una respuesta rápida por parte del clasificador.

Con el objetivo de acelerar el cálculo de los vecinos más cercanos se han desarrollado una amplia variedad de técnicas, entre ellas, los métodos de condensado. Estos permiten reducir la talla del conjunto de entrenamiento sin que se produzca un incremento significativo del error de clasificación. Los métodos de condensado eliminan la redundancia de información, presente en el conjunto de entrenamiento original, construyendo un nuevo conjunto de entrenamiento (conjunto condensado) donde sólo estén aquellos prototipos que aporten información relevante al clasificador.

(a) Conjunto de entrenamiento inicial (b) Conjunto condensado

Figura 2.1: Al aplicar un método de condensado sobre (a) se eliminan todos los documentos del interior de las clases, obteniéndose un nuevo conjunto (b) donde sólo estén los documentos cercanos a la frontera de decisión. Las líneas discontinuas representan la frontera de decisión.

Page 42: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

35

La mayoría de los algoritmos de condensado tratan de mantener en el conjunto de entrenamiento sólo aquellos documentos que son muy cercanos a las fronteras de decisión, como se muestra en la fig. 2.1. Se basan en el hecho de que para clasificar correctamente un nuevo documento sólo es necesario tener bien definidas las fronteras de decisión entre las distintas clases o categorías.

Estos algoritmos de condensado son sensibles al ruido. La presencia de documentos ruidosos provoca que las fronteras de decisión obtenidas estén alejadas de las reales y sean muy irregulares, afectando la reducción del conjunto de entrenamiento y el posterior desempeño de los clasificadores. En la fig. 2.2 (b) se muestra el conjunto obtenido al aplicar un método de condensado sobre un conjunto de entrenamiento con documentos ruidosos (fig. 2.2(a)).

(a) Conjunto de entrenamiento (b) Conjunto condensado

Figura 2.2: Sensibilidad al ruido de los métodos de condensado. Las líneas discontinuas representan la frontera de decisión real y las líneas continuas las obtenidas por el algoritmo.

Algunos algoritmos tratan de evitar la presencia de ruido empleando técnicas de edición antes de condensar el conjunto de entrenamiento. Los algoritmos de edición intentan eliminar del conjunto de entrenamiento aquellos prototipos erróneamente etiquetados y, al mismo tiempo, limpiar los posibles solapamientos entre regiones de clases distintas [Vázquez, 2008]. Pero esto a su vez impide su aplicación en colecciones de documento que presentan un alto grado de solapamiento entre las clases.

Los métodos de condensado son incapaces de eliminar el desbalance entre las clases (presencia de un número mucho mayor de documentos en unas clases que en otras), tal como se muestra en la fig. 2.3. Las categorías más representadas generalmente poseen un mayor número de documentos cercanos a la frontera de decisión que otras. Esto provoca que al aplicar un algoritmo de condensado, el cual obtiene un conjunto compuesto por los documentos cercanos a la frontera, se mantenga el desbalance entre las clases.

Page 43: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

36

(a) Conjunto de entrenamiento (b) Conjunto condensado

Figura 2.3: En (a) una clase está representada por un número mayor de documentos que otra. Al aplicar un método de condensado sobre (a) se obtiene un conjunto (b) que mantiene el desbalance entre las clases.

El desempeño de los algoritmos de condensado, al ser aplicados a colecciones de documentos, se ve afectado producto de la alta dimensionalidad propia de los documentos textuales (elevado número de rasgos o características que lo describen) y por la presencia de un gran número de clases. En estos casos las fronteras de decisión son muy complejas y resulta difícil representarlas. Por último, destacar que la gran mayoría de los métodos de condensados asumen como clasificador la regla del vecino más cercano (NN), sin considerar otras reglas basadas en vecindad.

2.1 Algoritmos de Agrupamiento como métodos de condensado

Las algoritmos de condensado se han empleado con éxito en colecciones de datos estructurados. Sin embargo, no se ha estudiado con igual intensidad el comportamiento de estos algoritmos en la Minería de Textos.

En las colecciones de documentos el conjunto de muestras de una clase o categoría puede estar dividido en varias subclases más específicas que responden a la temática original. Los métodos de condensado tradicionales basan su desempeño en determinar cuáles son los documentos más cercanos a las fronteras de decisión, pero no tienen en cuenta la estructura de las clases en el espacio de representación. Esto conlleva a que las categorías que estén formadas por varias zonas en el espacio no sean correctamente representadas por los documentos escogidos para conformar el nuevo conjunto de entrenamiento.

Con el objetivo de considerar la estructura de las clases se propone un nuevo método de condensado. El mismo determina cada una de las subclases en que se divide una clase y elimina toda la información empleada para representar dichas zonas que resulte redundante.

Page 44: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

37

Nuestra propuesta consiste en aplicar un algoritmo de agrupamiento al conjunto de muestras de cada clase. El conjunto de entrenamiento condensado estará compuesto por los centroides de los grupos obtenidos en cada una de las clases. En este trabajo consideramos el centroide de un grupo como la media de los objetos pertenecientes al grupo.

Al aplicar un algoritmo de agrupamiento sobre el conjunto de muestras de una clase este obtiene los grupos de objetos que abordan un subtema común. Por ello, al sustituir este grupo de documentos por el centroide se reduce el número de muestras y se mantiene la representatividad del subtema en la matriz de aprendizaje final. De esta forma se reduce el conjunto de entrenamiento del clasificador manteniendo la estructura interna de cada una de las clases del problema.

Para resumir, los pasos de nuestra propuesta se muestran en el siguiente algoritmo:

Entrada: X Conjunto de entrenamiento

Salida: S Conjunto condensado

Método:

1- Inicialización: S

2- Para cada clase ωi Ω (clases en que se divide X):

2.1- R = di | di ωi conjunto de prototipos de la clase ωi

2.2- G = Agrupamiento (R), aplicar un algoritmo de agrupamiento

al conjunto R

2.3- Para cada grupo gi G:

2.3.1- ci = Centroide (gi), ci es el centroide del grupo gi

2.3.2- Etiquetar ci como prototipo de la clase ωi

2.3.3- S = S ci

A diferencia de los métodos de condensado tradicionales; esta propuesta no asume independencia entre las clases ni basa su funcionamiento en búsqueda de documentos cercanos a la frontera de decisión, sino que reduce el conjunto de entrenamiento respetando la estructura de la clase. Esto conlleva a que pueda ser aplicada en colecciones de documentos donde existe solapamiento entre las diferentes clases del problema. Por otro lado, el empleo de algoritmos de agrupamiento provoca que la propuesta sea menos sensible a la presencia de objetos

Page 45: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

38

ruidosos en el conjunto de entrenamiento. La fig. 2.4 muestra su desempeño ante la presencia de ruido en el conjunto de entrenamiento. En la misma se puede observar que la frontera obtenida es menos irregular que la obtenida por los métodos tradicionales.

(a) (b) (c)

Figura 2.4: En (a) y (b) se muestran las regiones que conforman a cada una de las clases y la frontera de decisión obtenida por un algoritmo de condensado tradicional. En (c) aparece el conjunto de entrenamiento después de aplicar nuestra propuesta y la frontera de decisión obtenida.

El desbalance entre las clases es un problema común en la Minería de Textos que afecta el desempeño de los clasificadores basados en vecindad. En esta propuesta, el número de muestras presentes en el conjunto reducido estará condicionado, únicamente, por el número de grupos diferentes obtenidos. Esto conlleva a que en el conjunto condensado obtenido el desbalance entre las clases sea inferior al existente en el conjunto de entrenamiento inicial como se puede apreciar en la fig. 2.5.

(a) (b)

Figura 2.5: Reducción del desbalance entre las clases. En (a) se muestra el conjunto de entrenamiento inicial y las subclases de cada una de las clases. En (b) se tiene el resultado de aplicar el método propuesto.

En la fig. 2.5 (a) se muestra un conjunto de entrenamiento en el que existe desbalance entre sus dos categorías. Al aplicar nuestra propuesta se descubren las distintas regiones de cada

Page 46: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

39

clase y se obtienen las nuevas muestras que representarán a estas (fig. 2.5 (b)). Nótese que en la fig. 2.5 (a) la relación entre las clases era de 13 y 7, mientras que luego de aplicar la reducción la relación es de 5 y 4.

2.2 Experimentos

En este epígrafe se describen los experimentos realizados con el objetivo de evaluar la efectividad del método propuesto en dos de las tareas de la Minería de Textos: la Categorización de Documentos y el Filtrado Adaptativo de Documentos.

2.2.1 Medidas de Evaluación

Entre las medidas de evaluación más empleadas se encuentra la medida F1 [Rijsbergen, 1979], en ella se comparan las clases obtenidas manualmente por un experto con las obtenidas al aplicar un método de clasificación.

La medida F1 combina los factores de relevancia y precisión empleados en el área de Recuperación de Información. La relevancia y la precisión se pueden definir para una clase o tópico como [Yang, 1999]:

relevancia si 0. En otro caso, está indefinida.

precisión si 0. En otro caso, está indefinida.

Donde es el número de documentos de la clase que fueron clasificados correctamente, la cantidad que se clasificaron en la clase sin pertenecer a ella y c el número de documentos que conforman el tópico, según la clasificación manual, pero no fueron clasificados en él. La medida F1 se define entonces para una clase como:

F1 2 · · ó ó

La fórmula anterior indica el grado de similitud por clase entre la clasificación manual y la obtenida por el método. La calidad global se analizó tomando en cuenta las medidas: F1micro-promediada (F1-Micro) y F1macro-promediada (F1-Macro). La medida F1-Micro da el mismo peso a cada documento, por tanto, se considera un promedio por documento. Mientras que la medida F1-Macro da un peso similar a cada tópico, por lo que se considera un promedio por tópico.

Page 47: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

40

La medida F1-Micro se calcula de la siguiente forma:

F1-Micro 2 · · ó ó

micro-relevancia ∑

micro-precisión 1 ∑ ó1

donde Nclases corresponde a la cantidad de clases.

La medida F1-Macro se calcula como la media de la medida F1 para cada clase:

F1-Macro ∑ 1

Cuanto mayor sea el valor de estas medidas mejor será la calidad de la clasificación lograda por el método.

2.2.2 Categorización de Documentos

En la Categorización de Documentos, la fase de aprendizaje del clasificador se realiza una sola vez antes de comenzar el proceso de clasificación. Los experimentos realizados estuvieron enfocados en comparar los algoritmos de condensado tradicionales y nuestra propuesta en cuanto a:

a) los resultados obtenidos por los clasificadores basados en vecindad al emplear el conjunto de entrenamiento obtenido por el algoritmo de condensado.

b) reducción del conjunto de entrenamiento.

Adicionalmente, se compararon los resultados de nuestra propuesta contra los alcanzados por el clasificador con el conjunto de entrenamiento inicial.

2.2.2.1 Colecciones de Prueba

Para evaluar la calidad del algoritmo propuesto se utilizaron 18 colecciones de documentos en los idiomas español e inglés, provenientes de diversas fuentes. En la tabla 2.1 se muestran las principales características de cada una de estas colecciones.

Page 48: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

41

Colección Fuente Cantidad de Docs.

DimensiónTópicos

Entren. Prueba Cantidad Tamaño Prom.reu10 Reuters 5920 2313 18486 10 910 reu90 Reuters 7058 2740 32928 90 136 reu115 Reuters 7063 2740 32940 115 107

tdt TDT2 6589 3235 55112 193 58 eln TREC-4 3841 1987 84344 50 158 afp TREC-5 469 226 12575 25 32

classic CLUTO 2366 4730 41681 4 1773 hitech CLUTO 760 1530 22498 6 383 k1a CLUTO 785 1554 21839 20 117 k1b CLUTO 781 1557 21839 6 390 la12 CLUTO 2094 4184 30125 6 1046 new3 CLUTO 3181 6376 70822 44 217 ohscal CLUTO 3725 7436 11465 10 1116

re0 CLUTO 505 998 2886 13 115 re1 CLUTO 560 1096 3758 25 66

reviews CLUTO 1358 2710 36746 5 813 sports CLUTO 2863 5717 27673 7 1225 wap CLUTO 528 1031 8460 20 78

Tabla 2.1: Descripción de las colecciones de prueba.

Las colecciones reu10, reu90 y reu115 [Debole, 2005] son los subconjuntos más empleados de la colección Reuters-215781 distribución 1.0. La colección Reuters-21578 está compuesta por 12902 noticias en idioma inglés clasificadas en 135 categorías relacionadas con la economía. Esta colección se divide (según la división “ModApté”) en un conjunto de entrenamiento de 9603 documentos y en un conjunto de prueba de 3299 documentos. La colección reu10 está compuesta por las 10 clases con el mayor número de documentos de entrenamiento. La reu90 contiene las 90 clases que presentan al menos un documento en el conjunto de entrenamiento y uno en el de prueba. Por último, la reu115 posee las 115 clases que tienen al menos un documento en el conjunto de entrenamiento.

La colección tdt corresponde a la TDT2 versión 4.0 [NIST, 1998] que se emplea en las competencias internacionales de Detección y Seguimiento de Tópicos. Esta colección contiene

1 Disponible en http://kdd.ics.uci.edu.

Page 49: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

42

9824 noticias en inglés divididas en 193 tópicos, publicadas en 1998 por dos agencias de noticias, dos programas de radio y dos programas de televisión. La colección eln, empleada en la TREC-4 [Robertson, 1995], está conformada por 5829 artículos en español agrupados en 50 categorías, publicados por el periódico mexicano “El Norte” en el año 1994. La colección afp proviene de la conferencia TREC-52 y contiene artículos periodísticos escritos en español, publicados por la agencia de noticias AFP entre los años 1994 y 1996, clasificados en 25 tópicos. De esta colección disponemos solamente de los 695 artículos publicados en el año 1994.

El resto de las colecciones fueron seleccionadas de la herramienta CLUTO suministrada por el Dr. C. George Karypis [Karypis, 2004] y pueden ser descargadas desde su web3. Estas colecciones presentan la característica de traer el peso de cada término de un documento, por lo que no es necesario aplicar ningún esquema de pesado para obtenerlo.

En la tabla 2.1 la tercera y cuarta columnas contienen el número de documentos presentes en el conjunto de entrenamiento y en el conjunto de prueba respectivamente. La columna nombrada “Dimensión” contiene la cantidad de términos diferentes presentes en la colección. La última columna se refiere a la cantidad promedio de documentos por tópico.

En las colecciones tdt, eln y afp se tomó la tercera parte de los documentos como conjunto de prueba y el resto como conjunto de entrenamiento, las clases que tenían menos de tres documentos fueron eliminadas. En la colecciones reu10, reu90 y reu115 se respetó la división “ModApté”. En las demás colecciones se tomó la tercera parte como conjunto de entrenamiento y el resto como conjunto de prueba. El dividir las colecciones de distintas formas permite obtener una mayor representatividad de los posibles casos reales.

La selección de colecciones de diferentes tamaños y dimensiones nos permitió estudiar el comportamiento de nuestra propuesta y los métodos tradicionales de condensados ante colecciones de documentos con características variadas.

2.2.2.2 Descripción de los experimentos

Con el objetivo de evaluar el desempeño del método propuesto se comparó este con los algoritmos CNN, RNN, MCS y MSS. Para ello, se aplicaron los métodos mencionados al

2 Text REtrieval Conference. http://trec.nist.gov. 3 http://glaros.dtc.umn.edu/gkhome/fetch/sw/cluto/datasets.tar.gz

Page 50: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

43

conjunto de entrenamiento de cada colección y el conjunto condensado obtenido se empleó para clasificar los documentos de prueba.

En los experimentos se emplearon los clasificadores k-NN y αβ-NN. En ellos, el voto fue calculado por la expresión 1.3 del epígrafe 1.2.2 y la regla de decisión por la expresión 1.6 del epígrafe 1.2.3. Los algoritmos de agrupamiento empleados en nuestro método, para descubrir los grupos por clase, fueron: GLC, Compacto Incremental, Estrellas Grado y SinglePass (con solapamiento). De esta forma se pudo evaluar el comportamiento de la propuesta al utilizar distintos esquemas de agrupamiento.

Para representar los documentos se utilizó el conocido modelo vectorial. En algunas colecciones los términos ya poseían un peso determinado, en el resto, se empleó para calcular el peso de cada término el esquema TF con la normalización del coseno. La semejanza entre dos documentos se calculó con la medida del coseno.

Se asignó diferentes valores a los parámetros de cada algoritmo para que los resultados experimentales reflejaran su mejor desempeño. En el clasificador k-NN al parámetro k se le asignaron los valores 1, 3, 5, 7, 9, 11, 13 y 15. En la regla αβ-NN los valores de α fueron 0.02, 0.05, 0.07, 0.1, 0.15, 0.2, 0.25 y 0.3 y el valor de β se fijó en 0.1, pues su función es sólo garantizar que los documentos muy lejanos no influyan en la clasificación. Al umbral μ utilizado por la regla de decisión se le asignaron los valores 0.15, 0.2, 0.25, 0.3 y 0.35. El valor del parámetro β en los algoritmos de agrupamiento se tomó igual a 0.25. Luego, para cada algoritmo, se escogió la combinación de parámetros que permitió obtener los mejores resultados.

Para estimar la calidad de la clasificación se emplearon las medidas F1-Micro y F1-Macro. La eficacia de los métodos de condensado en cuanto a compresión del conjunto de entrenamiento se determinó por el porciento de reducción del mismo. El cual se calcula como la razón entre el número de muestras eliminadas y el total original.

2.2.2.3 Resultados experimentales

En este subepígrafe se describen los resultados obtenidos en los experimentos. Primero se mostrarán las tablas que contienen los resultados de la clasificación y luego los porcientos de reducción logrados por cada método de condensado en las distintas colecciones.

En las tablas, la columna “Sin Cond.” hace referencia a la clasificación lograda sin modificarse el conjunto de entrenamiento. El resto de las columnas, con nombre de algoritmo, muestran la clasificación conseguida cuando los conjuntos de entrenamiento son condensados por el método correspondiente. En el caso de las columnas que hacen referencia a los

Page 51: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

44

algoritmos de agrupamiento, corresponde a usar estos dentro de nuestra propuesta. La fila “Prom.” se refiere al promedio de los resultados obtenidos por los algoritmos en cada colección. El mejor resultado en cada colección es resaltado en negrita (considerando solamente los métodos de condensado).

En las tablas 2.2 y 2.3 se muestran los valores de F1-Micro y F1-Macro respectivamente, alcanzados por el clasificador k-NN con los diferentes conjuntos de entrenamiento.

Colecc. Sin

Cond. Estrella Compacto GLC SinglePass CNN RNN MCS MSS

reu10 0.82 0.83 0.8 0.65 0.83 0.81 0.81 0.77 0.8 reu90 0.46 0.44 0.4 0.32 0.45 0.45 0.45 0.44 0.45 re115 0.45 0.42 0.4 0.31 0.44 0.46 0.44 0.43 0.45

tdt 0.82 0.78 0.77 0.75 0.81 0.78 0.77 0.76 0.78 eln 0.6 0.58 0.55 0.35 0.59 0.57 0.57 0.55 0.58 afp 0.79 0.79 0.8 0.78 0.77 0.72 0.74 0.73 0.77

classic 0.93 0.91 0.9 0.66 0.93 0.9 0.88 0.89 0.92 hitech 0.67 0.67 0.68 0.57 0.68 0.64 0.64 0.64 0.67 k1a 0.64 0.65 0.64 0.58 0.64 0.61 0.61 0.61 0.64 k1b 0.87 0.82 0.89 0.72 0.87 0.85 0.84 0.86 0.84 la12 0.77 0.75 0.8 0.64 0.78 0.78 0.76 0.76 0.75 new3 0.78 0.75 0.76 0.56 0.78 0.76 0.75 0.75 0.77 ohscal 0.65 0.64 0.63 0.49 0.65 0.63 0.61 0.63 0.64

re0 0.71 0.67 0.66 0.59 0.68 0.67 0.67 0.68 0.71 re1 0.65 0.65 0.67 0.55 0.67 0.64 0.65 0.63 0.64

reviews 0.89 0.89 0.91 0.78 0.9 0.88 0.87 0.88 0.86 sports 0.94 0.94 0.93 0.73 0.93 0.91 0.89 0.91 0.93 wap 0.63 0.64 0.63 0.59 0.64 0.62 0.6 0.62 0.63

Prom. 0.726 0.712 0.712 0.59 0.724 0.704 0.696 0.697 0.712

Tabla 2.2: Valores de la medida F1-Micro obtenidos con el clasificador k-NN.

Según los datos reflejados en la tabla 2.2, al emplear el algoritmo SinglePass en nuestra propuesta se obtiene en 10 colecciones mejores resultados en la clasificación que los logrados por el resto de los métodos de condensados. Además, supera en 5 colecciones los valores alcanzados sin reducir el conjunto de entrenamiento. Por su parte, los algoritmos Compacto y Estrella muestran un desempeño equivalente, superando en 6 y 4 colecciones respectivamente

Page 52: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

45

a los demás algoritmos. Los métodos tradicionales solo se imponen en una o dos ocasiones, siendo el MSS el de mejor comportamiento entre ellos.

Colecc. Sin

Cond. Estrella Compacto GLC SinglePass CNN RNN MCS MSS

reu10 0.82 0.83 0.79 0.55 0.82 0.8 0.81 0.76 0.79 reu90 0.42 0.41 0.37 0.25 0.42 0.42 0.41 0.4 0.42 re115 0.42 0.39 0.36 0.23 0.41 0.42 0.4 0.39 0.41

tdt 0.8 0.74 0.73 0.69 0.78 0.76 0.74 0.74 0.77 eln 0.57 0.55 0.5 0.25 0.58 0.54 0.53 0.53 0.55 afp 0.78 0.76 0.78 0.71 0.75 0.71 0.72 0.7 0.75

classic 0.92 0.9 0.9 0.58 0.93 0.9 0.87 0.89 0.91 hitech 0.64 0.64 0.64 0.54 0.65 0.62 0.61 0.62 0.64 k1a 0.58 0.63 0.58 0.46 0.59 0.54 0.52 0.52 0.58 k1b 0.87 0.81 0.89 0.67 0.87 0.85 0.84 0.85 0.84 la12 0.75 0.74 0.79 0.57 0.78 0.77 0.76 0.76 0.74 new3 0.77 0.74 0.74 0.47 0.77 0.75 0.74 0.74 0.76 ohscal 0.65 0.63 0.6 0.45 0.65 0.62 0.6 0.62 0.63

re0 0.66 0.63 0.6 0.47 0.63 0.59 0.65 0.61 0.65 re1 0.63 0.62 0.63 0.48 0.65 0.63 0.61 0.58 0.61

reviews 0.89 0.89 0.91 0.76 0.9 0.88 0.87 0.87 0.86 sports 0.94 0.94 0.92 0.72 0.93 0.91 0.89 0.91 0.93 wap 0.6 0.61 0.57 0.5 0.6 0.6 0.57 0.59 0.6

Prom. 0.706 0.692 0.683 0.519 0.706 0.683 0.674 0.671 0.691

Tabla 2.3: Valores de la medida F1-Macro obtenidos con el clasificador k-NN.

Como se puede observar en la tabla 2.3, el algoritmo SinglePass supera en 7 colecciones a los demás algoritmos de condensado, incluso en 7 de ellas sobrepasa los resultados que se logran sin modificar el conjunto de entrenamiento inicial. Los algoritmos Compacto y Estrella mantienen un desempeño similar, ganando ambos en 4 colecciones. Mientras, los métodos tradicionales prevalecen en solo una o dos colecciones.

En las tablas 2.4 y 2.5 se exponen los resultados de las medidas F1-Micro y F1-Macro respectivamente, alcanzados por la regla αβ-NN cuando se emplea, como conjunto de entrenamiento, el conjunto obtenido por cada uno de los algoritmos de condensado.

Page 53: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

46

Colecc. Sin Cond. Estrella Compacto GLC SinglePass CNN RNN MCS MSS reu10 0.82 0.8 0.79 0.61 0.8 0.8 0.82 0.76 0.78 reu90 0.47 0.42 0.4 0.31 0.45 0.46 0.45 0.43 0.45 re115 0.47 0.42 0.39 0.3 0.45 0.46 0.44 0.43 0.45

tdt 0.82 0.78 0.76 0.75 0.8 0.78 0.77 0.77 0.8 eln 0.58 0.52 0.49 0.32 0.53 0.54 0.54 0.5 0.54 afp 0.78 0.84 0.82 0.77 0.83 0.76 0.71 0.77 0.8

classic 0.92 0.9 0.9 0.65 0.92 0.9 0.89 0.9 0.92 hitech 0.68 0.66 0.66 0.56 0.68 0.65 0.65 0.65 0.66 k1a 0.6 0.65 0.62 0.58 0.64 0.57 0.57 0.56 0.59 k1b 0.87 0.83 0.87 0.69 0.84 0.84 0.83 0.82 0.84 la12 0.77 0.73 0.77 0.59 0.75 0.77 0.75 0.75 0.75 new3 0.78 0.72 0.73 0.52 0.73 0.74 0.73 0.74 0.76 ohscal 0.64 0.63 0.62 0.48 0.61 0.6 0.6 0.6 0.62

re0 0.72 0.69 0.68 0.6 0.7 0.67 0.68 0.68 0.69 re1 0.65 0.61 0.64 0.53 0.64 0.63 0.63 0.62 0.63

reviews 0.89 0.87 0.88 0.75 0.88 0.87 0.85 0.87 0.89 sports 0.94 0.93 0.91 0.68 0.91 0.91 0.9 0.91 0.93 wap 0.62 0.64 0.63 0.6 0.64 0.61 0.59 0.6 0.61

Prom. 0.723 0.702 0.697 0.571 0.711 0.697 0.688 0.686 0.706

Tabla 2.4: Valores de la medida F1-Micro obtenidos con el clasificador αβ-NN.

Considerando los valores expuestos en la tabla 2.4, los algoritmos SinglePass y MSS son los que mejores resultados alcanzan, cada uno se impone en 6 colecciones. Por su parte el algoritmo Estrella obtiene resultados muy similares a ellos, ganando en 5 colecciones. Mientras, en esta ocasión, el Compacto sólo prevalece en 3 colecciones

En los valores mostrados en la tabla 2.5 se puede observar que los algoritmos SinglePass y MSS obtuvieron de manera general los mejores resultados, superando a los demás en 7 y 9 colecciones respectivamente. Por otra parte, los métodos de condensado tradicionales, con excepción del MSS, se mantienen por debajo de los algoritmos Estrella y Compacto.

Colecc. Sin Cond. Estrella Compacto GLC SinglePass CNN RNN MCS MSS reu10 0.82 0.8 0.79 0.57 0.8 0.8 0.81 0.75 0.78 reu90 0.44 0.39 0.36 0.24 0.41 0.44 0.42 0.4 0.43 re115 0.44 0.39 0.36 0.22 0.41 0.43 0.42 0.4 0.43

Page 54: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

47

tdt 0.81 0.74 0.73 0.68 0.77 0.76 0.74 0.75 0.78 eln 0.55 0.49 0.46 0.24 0.52 0.52 0.52 0.48 0.52 afp 0.77 0.83 0.8 0.74 0.82 0.74 0.7 0.73 0.77

classic 0.92 0.9 0.9 0.59 0.92 0.9 0.88 0.89 0.92 hitech 0.66 0.64 0.64 0.53 0.67 0.64 0.64 0.64 0.66 k1a 0.56 0.62 0.58 0.46 0.6 0.54 0.54 0.53 0.57 k1b 0.87 0.83 0.86 0.61 0.83 0.83 0.83 0.82 0.84 la12 0.76 0.72 0.77 0.49 0.74 0.76 0.75 0.75 0.74 new3 0.77 0.71 0.73 0.46 0.72 0.74 0.72 0.73 0.76 ohscal 0.63 0.61 0.59 0.44 0.59 0.59 0.58 0.59 0.61

re0 0.68 0.64 0.62 0.5 0.66 0.62 0.66 0.66 0.66 re1 0.63 0.59 0.62 0.46 0.62 0.61 0.61 0.6 0.61

reviews 0.89 0.87 0.88 0.74 0.88 0.87 0.85 0.87 0.89 sports 0.94 0.93 0.91 0.67 0.91 0.91 0.9 0.91 0.93 wap 0.59 0.6 0.59 0.5 0.61 0.58 0.57 0.57 0.58

Prom. 0.707 0.683 0.677 0.507 0.693 0.682 0.674 0.670 0.693

Tabla 2.5: Valores de la medida F1-Macro obtenidos con el clasificador αβ-NN.

Para tener una valoración general de los resultados alcanzados por cada método, se muestra en las figuras 2.7 y 2.8 los valores promedios obtenidos por cada clasificador al emplear los distintos conjuntos condensados.

Figura 2.8: Promedio de los resultados en la clasificación con k-NN.

0,43

0,48

0,53

0,58

0,63

0,68

0,73

Clasificador k-NN

F1-Micro

F1-Macro

Page 55: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

48

Figura 2.7: Promedio de los resultados en la clasificación con αβ-NN.

Una forma de validar los resultados que hemos presentado es aplicarle a los mismos un test estadístico. Para ello, incluiremos los resultados obtenidos valiéndonos del Wilcoxon Signed-Ranks Test [Demšar, 2006] el cual es un método no paramétrico para comparar dos clasificadores. En nuestro caso compararemos el desempeño de un mismo clasificador empleando dos conjuntos de entrenamiento diferentes.

En las tablas 2.6 y 2.7 se muestran los resultados del test, con un nivel de confiabilidad del 95%, para los clasificadores k-NN y αβ-NN respectivamente. En cada tabla se comparan los algoritmos que mejores resultados obtuvieron en la clasificación según la medida F1-Micro, para ello se emplean los valores que aparecen en las tablas 2.2 y 2.4. Los símbolos “≠” y “=” indican cuándo existe o no diferencias significativas entre los algoritmos.

Método de Condensado

Sin Cond. Estrella SinglePass MSS

Sin Cond. - ≠ = ≠

Estrella ≠ - ≠ =

SinglePass = ≠ - ≠

MSS ≠ = ≠ -

Tabla 2.6: Clasificador k-NN.

0,43

0,48

0,53

0,58

0,63

0,68

0,73

Clasificador αβ-NN

F1-Micro

F1-Macro

Page 56: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

49

Método de Condensado

Sin Cond. Estrella SinglePass MSS

Sin Cond. - ≠ = ≠

Estrella ≠ - = =

SinglePass = ≠ - =

MSS ≠ = = -

Tabla 2.7: Clasificador αβ-NN.

Como se puede observar en las tablas 2.6 y 2.7 no existen diferencias significativas entre los resultados obtenidos sin reducir el conjunto de entrenamiento y los alcanzados al condensar dicho conjunto con el algoritmo SinglePass. Además, los algoritmos Estrella y MSS muestran un desempeño similar para ambos clasificadores.

Un aspecto importante al evaluar el desempeño de un algoritmo de condensado es su capacidad de reducir el conjunto de entrenamiento. En la tabla 2.8 se muestran los porcientos de reducción del conjunto de entrenamiento que se obtienen al emplear cada método de condensado.

Colecc. Estrella Compacto GLC SinglePass CNN RNN MCS MSS reu10 84.61 79.93 96.25 73.76 74.45 73.39 82.38 71.57 reu90 79.07 73.22 92.26 67.44 65.11 69.66 74.22 63.26 re115 78.97 72.75 91.81 66.82 64.50 64.66 74.07 63.11

tdt 94.83 81.66 97.19 89.02 74.03 80.96 82.89 73.21 eln 74.43 74.53 91.59 58.34 30.59 37.25 49.88 34.78 afp 72.28 66.52 82.08 66.09 70.14 74.62 76.75 52.02

classic 70.28 75.23 86.17 57.43 75.27 80.34 78.86 52.95 hitech 46.16 48.24 57.99 39.66 42.00 49.80 49.41 32.76 k1a 80.89 74.52 92.99 71.84 45.98 51.59 51.08 37.45 k1b 86.04 78.87 98.07 70.42 82.97 83.61 83.86 71.44 la12 72.44 75.31 92.45 62.89 62.27 68.67 67.04 48.75 new3 77.77 73.78 90.03 69.72 53.22 59.72 60.51 41.71 ohscal 65.66 73.15 87.83 52.88 36.61 44.91 43.43 26.12

re0 85.14 78.41 95.24 79.60 58.21 66.73 64.75 51.08 re1 68.92 65.89 80.89 61.25 49.46 55.17 55.71 36.07

reviews 57.43 63.47 75.92 49.41 73.49 79.74 78.49 58.32

Page 57: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

50

sports 83.15 80.74 96.96 72.25 80.85 85.39 85.08 67.19 wap 84.09 74.24 93.37 76.32 47.72 51.70 52.65 39.96

Prom. 75.68 72.80 88.838 65.841 60.381 65.439 67.281 51.208

Tabla 2.8: Porciento de reducción del conjunto de entrenamiento.

En los valores reflejados en la tabla 2.8 se puede apreciar que el algoritmo GLC logra los mejores resultados en todas las colecciones. Esto es debido a que obtiene grupos con un alto nivel de encadenamiento, lo cual provoca que por cada clase se obtengan pocos grupos y a la vez pocas muestras. Después del GLC los mejores resultados son alcanzados por el algoritmo de las Estrellas, logrando superar a los métodos tradicionales en más de un 10% de reducción. El algoritmo SinglePass supera a casi todos los algoritmos tradicionales excepto al MCS, con el cual posee un diferencia inferior al 2%. En la fig. 2.8 se muestran los valores promedios de la reducción en cada colección por cada método de condensado, lo cual permite una apreciación general de los resultados alcanzados.

Figura 2.8: Promedio de reducción del conjunto de entrenamiento.

En la figura anterior se puede observar que al emplear los algoritmos SinglePass y de las Estrellas, en nuestra propuesta, se reduce entre un 15% y 25% más, respectivamente, que el método MSS, siendo este el que obtiene, entre los métodos tradicionales, los mejores resultados en la clasificación.

40

50

60

70

80

90

% d

e re

ducc

ión

Reducción del Conjunto de Entrenamiento

Page 58: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

51

2.2.2.4 Conclusiones

En este epígrafe se realizó un estudio del desempeño de los métodos tradicionales de condensado y de nuestra propuesta en la Categorización de Documentos. Para ello, se emplearon 18 colecciones de documentos de referencia internacional.

Al analizar los resultados obtenidos por cada clasificador, se puede apreciar que nuestra propuesta empleando el algoritmo SinglePass supera en la mayoría de las colecciones al resto de los algoritmos. Después de este, con resultados muy similares, se encuentran el MSS y el algoritmo de las Estrellas. Los cuales, de forma general alcanzan valores muy cercanos a los obtenidos sin reducir el conjunto de entrenamiento.

Los métodos de condensado tradicionales, con excepción del MSS, no alcanzaron resultados comparables con los algoritmos SinglePass, Estrellas y Compacto. Nuestra propuesta al emplear el algoritmo GLC no obtuvo buenos resultados.

En cuanto al nivel de reducción del conjunto de entrenamiento, el GLC es el de mejores resultados. Después del GLC, el algoritmo de las Estrellas es el que más reduce, superando en más del 10 % a todos los métodos tradicionales. Seguido por el Compacto con niveles de reducción muy similares (apenas un 3% inferior).

De manera general, el algoritmo SinglePass reduce tanto como el mejor de los métodos tradicionales (el MCS) y supera en la clasificación al MSS. Mientras que el algoritmo de las Estrellas supera en un 10 % al MCS y en más del 25% al MSS y obtiene en la clasificación resultados equivalentes al último.

Del análisis de estos resultados podemos concluir que es preferible emplear nuestra propuesta, cuando en ella se emplea el algoritmo SinglePass o el de las Estrellas para reducir el conjunto de entrenamiento, en la tarea de Categorización de Documentos ante que los métodos de condensado tradicionales.

2.2.3 Filtrado Adaptativo de Documentos

En el Filtrado Adaptativo de Documentos, a diferencia de la Categorización de Documentos, el conjunto de entrenamiento cambia con el propio desempeño del algoritmo. Un sistema de Filtrado Adaptativo de Documentos se espera que comience el proceso de clasificación con muy pocas muestras y vaya incrementando su conjunto de entrenamiento basado en la retroalimentación proveniente del usuario. En el algoritmo descrito en el epígrafe 1.5.3, cuando un usuario retroalimenta al sistema esta muestra es incorporada al conjunto de entrenamiento sin controlar el crecimiento del mismo, lo que conlleva a un deterioro en el

Page 59: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

52

rendimiento del sistema. Este problema cobra particular importancia si tenemos en cuenta que los Sistemas de Filtrado Adaptativo de Documentos son sistemas en línea y deben dar respuesta en un corto período de tiempo.

Los experimentos realizados estuvieron encaminados a estudiar la factibilidad de reducir el conjunto de muestras empleando nuestra propuesta. Debido a que el conjunto de entrenamiento varía constantemente no se pueden emplear los métodos de condensado tradicionales. Estos tendrían que aplicarse cada vez que se adicione un nuevo documento, lo cual trae aparejado un elevado costo computacional. Sin embargo, nuestra propuesta, al hacer uso de algoritmos de agrupamiento incrementales, sí puede ser aplicada.

2.2.3.1 Colecciones de Prueba

A diferencia de las colecciones de documentos empleadas en los experimentos realizados en la Categorización de Documentos, estas no poseen un elevado número de muestras en el conjunto de entrenamiento. Según la metodología de la conferencia TREC-11[Soboroff, 2002] inicialmente solo se contará con tres documentos por perfil, donde cada perfil corresponde a una clase de la colección.

En los experimentos se emplearon las colecciones: tdt, eln, afp y trec-11, las tres primeras fueron descritas en el epígrafe 2.2.2.1. La colección trec-11 se empleó en la conferencia TREC-11, para su construcción se utilizó la colección estándar Reuters 2001 (también conocida como RCV14). La trec-11 está compuesta de 100 tópicos o clases, cincuenta de los cuales (R101-R150) fueron creados por los asesores de la NIST (National Institute of Standards and Technology) y los otros cincuenta (R151-R200) fueron construidos como la intersección de pares de tópicos de la RCV1. En la tabla 2.9 se muestran las principales características de las colecciones empleadas.

Colección Fuente Cantidad de Docs.

DimensiónTópicos

Entren. Prueba Cantidad Tamaño Prom.tdt TDT2 501 9299 55112 193 58 eln TREC-4 132 5714 84344 50 158 afp TREC-5 65 629 12575 25 32

trec-11 TREC-11 291 33920 109147 100 77

Tabla 2.9: Descripción de las colecciones de prueba.

4 Disponible en http://about.reuters.com/researchandstandards/corpus/

Page 60: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

53

2.2.3.2 Descripción de los experimentos

En los experimentos realizados se empleó el algoritmo de Filtrado Adaptativo de Documentos descrito en el epígrafe 1.5.3. En el mismo se utilizó para calcular la vecindad de cada nuevo documento, además de la regla αβ-NN que propone emplear, la conocida regla k-NN. El voto fue calculado por la expresión 1.1 presentada en el epígrafe 1.2.2 y la regla de decisión usada está dada por la expresión 1.6 del epígrafe 1.2.3.

Nuestra propuesta es empleada para reducir el conjunto de entrenamiento cada vez que se recibe retroalimentación por parte del usuario. Se emplearon los algoritmos de agrupamientos incrementales: GLC, Compacto Incremental, Estrellas Grado y SinglePass.

En la representación de los documentos se utilizó el modelo vectorial y el peso de cada término se calculó por el esquema ltc. Además, la semejanza entre dos documentos se determinó por la medida del coseno.

Se probaron diferentes valores para los parámetros de cada algoritmo con el objetivo de asegurar que los resultados experimentales reflejaran su mejor desempeño. Los valores de k en el clasificador k-NN se tomaron igual a 1, 3, 5, 7, 9, 11, 13 y 15. En el clasificador αβ-NN se asignó a α los valores 0.02, 0.05, 0.07, 0.1, 0.15, 0.2, 0.25 y 0.3 y a β el valor 0.1. El valor del umbral μ de la regla de decisión se tomó igual a 0.25 y el del parámetro β de los algoritmos de agrupamientos se fijó en 0.25.

2.2.3.3 Resultados experimentales

En este epígrafe se muestran los resultados obtenidos en la clasificación por el algoritmo de filtrado presentado en el epígrafe 1.5.3 al emplear en su totalidad el conjunto de documentos que representa un perfil y los logrados cuando se utiliza nuestra propuesta para reducir dicho conjunto. Además, se muestran las gráficas que reflejan, para cada caso, el tiempo empleado en la clasificación.

En las tablas, la columna “Sin Cond.” corresponde a los valores obtenidos en la clasificación al emplear todos los documentos que representan un perfil. Mientras que las columnas correspondientes a los algoritmos de agrupamientos hacen referencia a los resultados alcanzados cuando estos son usados en nuestra propuesta para reducir el conjunto de muestras de cada perfil. Los resultados obtenidos en la colección trec-11 son mostrados por separado para los conjuntos de tópicos R101-R150 y R151-R200.

En las tablas 2.10 y 2.11 se exponen los valores de las medidas F1-Micro y F1-Macro respectivamente, conseguidos al emplear el clasificador k-NN en el algoritmo de filtrado.

Page 61: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

54

Colección Sin Cond. Estrella Compacto GLC SinglePass

tdt 0.66 0.61 0.61 0.63 0.63 eln 0.42 0.4 0.41 0.42 0.43 afp 0.6 0.56 0.59 0.6 0.61

trec-11 (R101-R150) 0.47 0.41 0.41 0.42 0.42 trec-11 (R151-R200) 0.52 0.5 0.52 0.5 0.5

Tabla 2.10: Valores de la medida F1-Micro obtenidos por k-NN.

Colección Sin Cond. Estrella Compacto GLC SinglePasstdt 0.65 0.61 0.6 0.6 0.61 eln 0.41 0.4 0.4 0.42 0.42 afp 0.58 0.54 0.57 0.58 0.58

trec-11 (R101-R150) 0.45 0.4 0.4 0.4 0.4 trec-11 (R151-R200) 0.51 0.49 0.51 0.5 0.5

Tabla 2.11: Valores de la medida F1-Macro obtenidos por k-NN.

En las tablas siguientes se reflejan los valores alcanzados al aplicar dentro del algoritmo de filtrado el clasificador αβ-NN. Las tablas 2.12 y 2.13 muestran los valores de las medidas F1-Micro y F1-Macro respectivamente.

Colección Sin Cond. Estrella Compacto GLC SinglePass

tdt 0.64 0.61 0.6 0.62 0.62 eln 0.42 0.4 0.4 0.41 0.42 afp 0.6 0.56 0.56 0.58 0.59

trec-11 (R101-R150) 0.42 0.39 0.41 0.39 0.4 trec-11 (R151-R200) 0.5 0.47 0.49 0.48 0.48

Tabla 2.12: Valores de la medida F1-Micro obtenidos por αβ-NN.

Colección Sin Cond. Estrella Compacto GLC SinglePasstdt 0.63 0.59 0.59 0.6 0.6 eln 0.41 0.39 0.4 0.41 0.41 afp 0.58 0.53 0.54 0.55 0.56

trec-11 (R101-R150) 0.4 0.38 0.39 0.38 0.39 trec-11 (R151-R200) 0.49 0.45 0.47 0.46 0.46

Tabla 2.13: Valores de la medida F1-Macro obtenidos por αβ-NN.

Page 62: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

55

Como se puede observar en las tablas anteriores, el algoritmo SinglePass al ser empleado en nuestra propuesta obtiene los mejores resultados. Sin embargo, los demás algoritmos obtienen para cada colección resultados similares a los alcanzados por él. De manera general, al emplear nuestra propuesta para reducir el conjunto de documentos que representa un perfil, se alcanzan resultados cercanos a los obtenidos cuando se utilizan todos los documentos. La diferencia, en el peor de los casos, es de 0.06, sin dejar de mencionar que en algunas ocasiones se obtienen mejores resultados.

En las siguientes figuras se muestran los tiempos de clasificación empleados por cada algoritmo en cada una de las colecciones.

Figura 2.9. Tiempos de clasificación para las colecciones eln y tdt.

0100020003000400050006000

segu

ndos

eln

k-NN

αβ-NN0

2000

4000

6000

8000

10000

segu

ndos

tdt

k-NN

αβ-NN

0

100

200

300

400

segu

ndos

trec-11 (R101-R150)

k-NN

αβ-NN0

100

200

300

400

segu

ndos

trec-11 (R151-R200)

k-NN

αβ-NN

Page 63: Thesis Text Mining

Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado

56

Figura 2.10: Tiempo de clasificación para las colecciones trec-11 (R101-R150), trec-11 (R101-R150) y afp.

Como reflejan las figuras 2.9 y 2.10, el algoritmo de las Estrellas y el GLC logran los mejores tiempos, seguidos por el Compacto y por último el SinglePass.

2.2.3.4 Conclusiones

En este epígrafe se analizó el desempeño de nuestra propuesta en el Filtrado Adaptativo de Documentos. Los resultados obtenidos en 4 colecciones de documentos de referencia internacional, muestran que la clasificación con el total de documentos presentes en un perfil y la obtenida al reducir el conjunto de entrenamiento son similares. Incluso, en algunos casos al aplicar nuestra propuesta los resultados alcanzados son mejores. El algoritmo SinglePass es el que consigue los mejores resultados, pero de forma general todos mantienen un buen desempeño. Considerando el tiempo de clasificación el Conexo y el de las Estrellas superan al resto en lo algoritmos, además de lograr buenos resultados en la clasificación.

Los experimentos realizados en la tarea de filtrado confirmaron la posibilidad de reducir el conjunto de entrenamiento empleando nuestra propuesta. En esta tarea el conjunto de entrenamiento se incrementa constantemente y nuestra propuesta afronta esta situación mediante el empleo de algoritmos de agrupamiento incrementales.

1015202530354045

segu

ndos

afp

k-NN

αβ-NN

Page 64: Thesis Text Mining

57

Conclusiones

En la Minería de Textos son ampliamente utilizados los clasificadores basados en vecindad. Estos emplean un elevado número de muestras para determinar los tópicos o categorías a las que pertenece un nuevo documento, por lo que en muchos casos el costo computacional del proceso de clasificación dificulta su aplicación a determinados problemas reales. Con el objetivo de acelerar este proceso se aplican técnicas de condensado del conjunto de entrenamiento. El estudio del comportamiento de los distintos métodos de condensado en el área de la Minería de Texto ha sido poco abordado.

En este trabajo se realizó un análisis del desempeño en tareas de Minería de Textos de algunos de los algoritmos de condensados más tratados en la literatura y se propuso un nuevo método que utiliza algoritmos de agrupamiento. Cumpliéndose así, de forma satisfactoria, el objetivo trazado en el presente trabajo. En los experimentos, estos métodos fueron empleados para reducir el conjunto de entrenamiento de los clasificadores basados en vecindad aplicados en la Categorización de Documentos y en el Filtrado Adaptativo de Documentos.

Los resultados obtenidos en la Categorización de Documentos confirman la superioridad de emplear algoritmos de agrupamiento para reducir el conjunto de entrenamiento sobre los métodos tradicionales de condensado. Nuestra propuesta en la clasificación superó a casi todos los métodos de condensado, excepto al MSS, con el que obtuvo resultados similares, según los resultados del test estadístico empleado. Sin embargo, este último logró niveles de reducción muy por debajo de los alcanzados por los distintos algoritmos de agrupamientos. Los cuales de manera general superaron a todos los métodos tradicionales.

En el Filtrado Adaptativo de Documentos se comprobó que el empleo de nuestra propuesta permite reducir el tiempo de respuesta del sistema al usuario sin un incremento considerable del error de clasificación.

Page 65: Thesis Text Mining

58

Recomendaciones

Los experimentos realizados demostraron que es factible el empleo de algoritmos de agrupamientos para reducir el conjunto de entrenamiento de los clasificadores basados en vecindad. Se obtienen resultados similares a cuando se clasifica con el conjunto completo, pero en un tiempo mucho menor. Por ello se recomienda incluir nuestra propuesta en un sistema real de clasificación.

Los resultados obtenidos en la Categorización de Documentos por nuestra propuesta al emplear el algoritmo GLC no fueron satisfactorios, contrario a lo sucedido en la tarea de Filtrado Adaptativo de Documentos. Por esta razón se recomienda realizar un estudio más detallado que permita explicar a qué se debe este comportamiento.

Por último, se recomienda analizar el empleo de algoritmos de agrupamientos dinámicos en nuestra propuesta. Estos permitirían controlar la talla del conjunto de entrenamiento en un entorno donde no sólo se adicionan nuevos documentos, sino también se puedan eliminar muestras de él.

Page 66: Thesis Text Mining

59

Referencias Bibliográficas

[Allan, 1996] Allan, J. «Incremental relevance feedback for information filtering.» Proceeding of the Nineteenth Annual International ACM SIGIR. 1996. 270-278.

[Barandela, 2005] Barandela, R., F. J. Ferri, y J. S. Sánchez. «Decision boundary preserving prototype selection for nearest neighbour classification.» International Jornal of Pattern Recognition and Artificial Intelligence. World Scientific Publishing Company, 2005. 787-806.

[Bezdek, 2001] Bezdek, J. C., y L. I. Kuncheva. «Nearest prototype classifier designs: An experimental study.» International Journal of Intelligent Systems. 2001. 1445-1473.

[Cancedda, 2003] Cancedda, N. «Kernel methods for document filtering.» Proceeding of the Eleventh Text REtrieval Conference (TREC-11). 2003. 373-382.

[Dasarathy, 1991] Dasarathy, B. V. Nearest Neighbor (NN) Nom: NN Pattern Classification Techniques. Los Alamitos, CA: IEEE Computer Society Press, 1991.

[Dasarathy, 1994] Dasarathy, B. V. «Minimal consistent set (MCS) identification for optimal nearest neighbor decision systems design.» IEEE Transactions on Systems, Man and Cybernetics. 1994. 511-517.

[Debole, 2005] Debole, F., y F. Sebastiani. «An analysis of the relative hardness of Reuters-21578 subsets.» Journal of the American Society for Information Science and Technology. 2005. 584-596.

[Demšar, 2006] Demšar, J. «Statistical comparisons of classifiers over multiple data sets.» Journal of Machine Learning Research. 2006. 1-30.

[Devroye, 1996] Devroye, L., L. Györfi, y G. Lugosi. A Probabilistic Theory of Pattern Recognition. New York: Springer-Verlag, 1996.

[Duda, 1973] Duda, R. O., y P. E. Hart. Pattern Classification, and Scene Analysis. New York: John Wiley & Sons, 1973.

Page 67: Thesis Text Mining

60

[Fix, 1951] Fix, E., y J. L. Hodges. Discriminatory analysis: Nonparametric discrimination: Consistency properties. Technical Report Project 21-49-004, Texas: USAF School of Aviation Medicine, Randolf Field, 1951.

[Fonseca, 2008] Fonseca, A. «Un nuevo algoritmo para el Filtrado Adaptativo de Documentos.» Tesis en opción al título de Máster en Ciencia de la Computación, Universidad de Oriente, Santiago de Cuba, 2008.

[Fuyama, 1982] Fuyama, S. Syntactic Pattern Recognition and Application. New Jersey: Prentice-Hall, 1982.

[Gates, 1972] Gates, G. W. «The reduced nearest neighbour rule.» IEEE Trans. on Information Theory. 1972. 431-433.

[Gil, 2006] Gil García, R., y A. Pons Porrata. «A New Nearest Neighbor Rule For Text Categorization.» Lecture Notes on Computer Sciences. Springer-Verlag, 2006. 814 – 823.

[Gil, 2008] Gil Garcia, R., y A. Pons Porrata. «Hierarchical Star Clustering Algorithm for Dynamic Document Collections.» Editado por J. Ruiz Shulcloper y W. G. Kropatsch. Progress in Pattern Recognition, Image Analysis and Applications. Springer-Verlag, 2008. 187-194.

[Greengrass, 2001] Greengrass, E. Information Retrieval: A Survey. Technical Report TR-R52-008-001, UMBC CADIP, 2001.

[Hart, 1968] Hart, P. E. «The condensed nearest neighbor rule.» IEEE Trans. on Information Theory. 1968. 515 - 516.

[Hill, 1968] Hill, D. R. «A vector clustering technique.» Mechanized Information Storage, Retrieval and Dissemination. 1968.

[Karypis, 2004] Karypis, G., y Y. Zhao. «Empirical and theoretical comparisons of selected criterion functions for document clustering.» Machine Learning. 2004. 311–331.

[Littlestone, 1988] Littlestone, N. «Learning quickly when irrelevant attributes abound: a new linear threshold algorithm.» Machine Learning. 1988. 285–318.

[NIST, 1998] National Institute of Standards and Technology. «The Topic Detection and Tracking Phase 2 (TDT2).» evaluation plan, version 3.7, National Institute of Standards and Technology, 1998.

Page 68: Thesis Text Mining

61

[Pons, 2002] Pons Porrata, A., J. Ruiz Shulcloper, R. Berlanga Llavori, y Y.

Santiesteban Alganza. «Un algoritmo incremental para la obtención de particiones con datos mezclados.» Reconocimiento de Patrones. Avances y Perspectivas. Research on Computing Science, CIARP’2002. 2002. 265-276.

[Rijsbergen, 1979] Rijsbergen, C. Information Retrieval. second edition. London: Buttersworth, 1979.

[Ritter, 1975] Ritter, G. L., H. B. Woodruff, S. R. Lowry, y T. L. Isenhur. «An algorithm for selective nearest neighbour decision rule.» IEEE Trans. on Information Theory IT-21. 1975. 665-669.

[Robertson, 1995] Robertson, S., S. Walker, M. M. Beaulieu, M. Gartford, y A. Payne. «Okapi at trec-4.» Proceeding of the Fourth Text REtrieval Conference (TREC-4). 1995. 73–97.

[Salton, 1989] Salton, G. Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer. Addison-Wesley, 1989.

[Shulcloper, 1995] Ruiz Shulcloper, J., E. Alba, y M. Lazo. Introducción al Reconocimiento de Patrones (Enfoque Lógico-Combinatorio). Grupo de Reconocimiento de Patrones Cuba-México, Centro de Investigación y de Estudios Avanzados del IPN, Dpto. de Ingeniería Eléctrica, Serie Verde No. 51, 1995.

[Shulcloper, 2002] Ruiz Shulcloper, J., D. G. Sánchez, y M. A. Abidi. «Clustering in mixed incomplete data.» En Heuristics and optimization for Knowledge Discovery, de J. Ruiz Shulcloper, G. Sánchez D. y M. A. Abidi, 88–106. Idea Group Publishing, 2002.

[Soboroff, 2002] Soboroff, I., y S. Robertson. «The trec 2002 filtering track report.» Proceeding of the Eleventh Text Retrieval Conference (TREC-11). 2002.

[Vapnik, 1995] Vapnik, V. The Nature of Statistical Learning Theory. New York: Springer, 1995.

[Vázquez, 2008] Vázquez, F. Algoritmos de Aprendizaje Continuo Mediante Selección de Prototipos para Clasificadores Basados en Distancias. Tesis en opción al título de Doctor en Sistemas Informáticos, España: Universidad Jaume I, 2008.

Page 69: Thesis Text Mining

62

[Wilfong, 1991] Wilfong, G. «Nearest neighbor problems.» Proceedings of the 7th

Annual ACM Symposium on Computational Geometry. 1991. 224-233.

[Wilson, 2000] Wilson, D. R., y T. R. Martínez. «Reduction Techniques for Instance-Based Learning Algorithms.» Machine Learning. 2000. 257-286.

[Xu, 2002] Xu, H. «Trec-11 experiments at cas-ict: Filtering and web.» Proceeding of the Eleventh Text REtrieval Conference (TREC-11). 2002. 141–151.

[Yang, 1999] Yang, Y., J. Carbonell, R. Brown, T. Pierce, B. T. Archibald, y X. Liu. «Learning approaches for Detecting and Tracking New Events.» IEEE Intelligent Systems. 1999. 32-43.

[Zhai, 1998] Zhai, C., P. Jansen, E. Stoica, N. Grot, y D. A. Evans. «Threshold calibrationin clarit adaptive filtering.» Proceeding of the Seventh Text REtrieval Conference (TREC-7). 1998. 149–157.

[Zhang, 2004] Zhang, Y. «Using bayesian priors to combine classifiers for adaptive filtering.» inProceedings of the 27th annual international ACM SIGIR conference on Researchand development in information retrieval. New York: ACM Press, 2004. 345–352.