minería web de uso y perfiles de usuario: aplicaciones con lógica difusa víctor heughes escobar...

56
Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín Bautista Dra. María Amparo Vila Miranda Departamento de Ciencias de la Computación e Inteligencia Artificial. Universidad de Granada. Tesis Doctoral

Upload: teodosio-velarde

Post on 14-Apr-2015

8 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa

Víctor Heughes Escobar JeriaGranada, 2007

Directoras:Dra. María José Martín BautistaDra. María Amparo Vila Miranda

Departamento de Ciencias de la Computación e Inteligencia Artificial. Universidad de Granada.

Tesis Doctoral

Page 2: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

2

La Minería Web se define como “el proceso global de descubrir información o conocimiento potencialmente útil y previamente desconocido a partir de los datos de la web” [Etzioni, 1996].

Forma intermedia

Técnicas de minería de datos adecuadas para el análisis

de la información que se encuentra en la web

Motivación

Page 3: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

3

Minería Web

Minería Web de Uso

Minería Web de Estructura

Minería Web de Contenido

Documentos Web Enlaces entre e intraDocumentos

Archivos Log

Motivación

Page 4: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

4

¿Cómo es el comportamiento de navegación del usuario en la web?

¿Cómo podemos identificar a los usuarios que navegan por la web si no se registran?

¿Cómo podemos ofrecer una información más adecuada al usuario durante su navegación?...

Minería de Datos

Lógica Difusa

Motivación

Page 5: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

5

La obtención de patrones de navegación, a través de la técnica de reglas de asociación difusas.

Realizar un análisis demográfico, utilizando la técnica del clustering difuso para la agrupación y caracterización de sesiones de usuarios.

Construcción de perfiles de usuario, a través de un modelo general de obtención y representación de los mismos en XML.

La aplicación de la lógica difusa en la minería web de La aplicación de la lógica difusa en la minería web de uso.uso.

Objetivos

Page 6: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

6

Minería Web de Uso. (Capítulo 3) - Modelo de datos.

Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones de

navegación: caso real (E.T.S.I.I.T.).

Análisis demográfico. (Capítulo 5)- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.).

Perfiles de usuario y lógica difusa. (Capítulo 6)- Modelo de obtención y representación en XML de los perfiles de

usuario.- Aplicación para un caso real (E.T.S.I.I.T.).

Conclusiones y trabajos futuros. (Capítulo 7)

Contenidos

Page 7: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

7

Minería Web de Uso. (Capítulo 3) - Modelo de datos.

Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de

patrones de navegación: caso real.

Análisis demográfico.- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de

los perfiles de usuario.- Aplicación para un caso real.

Conclusiones y trabajos futuros.

Contenidos

Page 8: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

8

Colección de Datos de Uso

Preprocesamiento de Datos de Uso

Descubrimiento de Patrones de Uso

Interpretación de los resultados

- Servidor Web

- Servidor Proxy

- Máquina del Usuario

- Heterogeneidad y Carencia de Estructura

- Forma Intermedia

Técnicas de Minería:

- Clustering

- Reglas de Asociación- Interpretar patrones

- Construir perfiles

Minería Web de Uso – Etapas (Capítulo 3) Minería Web de Uso Etapas (Capítulo 3)

Page 9: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

9

Performance Log File Format (PLFF)

Tipos de ficheros

Registros de Accesos

Registros deError

Registros de Referencia

Registros de Agentes

Common Log File Format

(CLFF)

Extended Common Log File Format

(ECLFF)

Minería Web de Uso – Etapas (Capítulo 3) Minería Web de Uso Tipos de ficheros log (Capítulo 3)Minería Web de Uso Tipos de ficheros log (Capítulo 3)

Page 10: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

10

Archivo Extended Common Log File Format (ECLFF)

Host o IP

Identificación de usuario

Autentificación de usuario

Fecha/Hora

Petición

Estado

Bytes

Pág. Referenciada

Agente

Minería Web de Uso Ejemplo de Fichero ECLFF

Page 11: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

11

Una página web pi P , es un documento HTML

identificable a través de la red con una URL.

Una sesión de usuario sj S, se define como una secuencia de accesos temporales a un sitio particular de la Web por un usuario. Viene determinada por un conjunto de clicks en el sitio web, denominado clickstream.

La relación entre una página pi P y la sesión sj S en la que se

visita viene dada por la matriz UP, donde cada valor representa el tiempo de la permanencia del usuario en la página pi en la sesión sj

},...,,{ 21 npppP

},...,{ 1 qrrR

},...,,{ 21 msssS

Minería Web de Uso Modelo de datos (Capítulo 3)

njmipswUP ji 1 ,1 )],,([

Page 12: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

12

Caracterizaremos el clickstream para la identificación de sesiones de usuarios (Método timeout [Chen et al., 1996]):

Sea rk el kth click del clickstream R de una dirección IP en tk segundos.

Sea rk+1 el (k+1)th click del clickstream de la misma dirección IP en tk+1 segundos después del click rk.

T es el tiempo de espera calculada como la diferencia entre ambos click en un sitio web es T =(tk+1 - tk)

Si T< β, siendo β el tiempo de espera máximo, entonces el click rk y rk+1 son considerados partes de la sesión Si. En otro caso, si T> β, entonces el click rk es estimada como final de la sesión Si, mientras el click rk+1 es el clickstream de la sesión Si+1.

Minería Web de Uso Modelo de datos (cont.)

Page 13: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

13

Identificación de sesiones de usuario:Identificación de sesiones de usuario:

Minería Web de Uso Modelo de datos (cont.)

Page 14: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

14

Minería Web de Uso (Capítulo 3) - Modelo de datos.

Análisis de patrones de navegación. (Capítulo 4) - Obtención de reglas de asociación difusas para el análisis de patrones

de navegación: caso real (E.T.S.I.I.T).

Análisis demográfico.- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de

los perfiles de usuario.- Aplicación para un caso real.

Conclusiones y trabajos futuros.

Contenidos

Page 15: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

15

ObjetivoObjetivo

Obtener patrones de navegación del usuario y así tener una mejor descripción de su comportamiento en la web y de esa manera saber realmente lo que sucede en el sitio web.

ProblemaProblema

- Problema de navegación temporal: intervalo horario – página visitada.- Problema de navegación intrapágina: pagina visitada - página referenciada.

Metodología usadaMetodología usada

Reglas de asociación difusas.

Patrones de navegación

Page 16: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

16

Patrones de navegación

)(~)(~0

0 iminIIi

Medidas de interés:Medidas de interés: hemos utilizado diferentes medidas para la obtención de las reglas de asociación difusas, tanto medidas objetivas como subjetivas [Liu et al., 2000].

Algoritmo:Algoritmo: AprioriTID

Reglas de asociación difusas (Capítulo 4)

Definición:Definición: [Delgado et al., 2003] Dado I un conjunto de ítems, definiremos una transacción difusa , donde . Sea el grado de pertenencia de i a y notaremos a el grado de inclusión de un ítemset en una transacción difusa definida como

Iτ~ )(~ i)(~

0I~

~

Page 17: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

17

Hora. Peso Etiqueta

08:30 1.0 Mañana

12:45 0.5 Medio Día

15:25 0.4 Tarde

20:20 0.3 Noche

Problema 1:Problema 1: problema de navegación temporal.

Ítems: fecha/hora y páginas visitadas

Transacciones: tablas transaccionales difusa para la obtención de las reglas, para los ítems fecha/hora y páginas visitadas.

IP/Pag. Madrugada Mañana Medio día Tarde Noche Pag1 Pag2 Pag3

IP1 0 1.0 0 0 0 0.4 0 0.8

IP2 0 0 0.5 0 0 0 0 0.4

IP3 0 0 0 0.4 0 0.7 0.3 0

IP4 0 0 0 0 0.3 0.2 0 0

Patrones de navegaciónModelo asociado a la navegación temporal - Fecha-Página visitada

Page 18: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

18

Fecha/Hora → Página Visitada.

Mañana → http://www.shop2.cz/ls/index.php?\&id=98\&filtr=102

- Soporte =60%; confianza =1.0; FC =1.0

Interpretación: del conjunto analizado el 60% presentaba esta regla, la cual nos indica que los usuarios se conectan por la mañana a esa página.

Patrones de navegaciónEjemplo de regla de asociación difusa – Fecha-Página visitada

Page 19: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

19

IP/Pag. Pag1 Pag2 Pag3 Pag4

IP1 0 4 0 7

IP2 7 0 8 0

IP3 6 0 2 0

IP4 0 3 0 10

Problema 2:Problema 2: problema de navegación entre páginas.

Ítems: páginas visitadas y páginas referenciadas.

Transacciones:: tablas transaccionales difusa para la obtención de las reglas, para los ítems páginas visitadas y páginas referenciadas:

IP/Pag. Pag1 Pag2 Pag3 Pag4

IP1 0 0.4 0 0.7

IP2 0.7 0 0.8 0

IP3 0.6 0 0.2 0

IP4 0 0.3 0 1

Obtención de los pesos

Frecuencia peso

Patrones de navegaciónModelo asociado a la navegación entre páginas - Página visitada – Página referenciada (Capítulo 4)

Page 20: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

20

página visitada → página referenciada

/dt/?c=11670 → http://www.shop2.cz

- Soporte =40%; confianza =1.0; FC =1.0

Interpretación: esto indica que los usuarios vistan a la página /dt/?c=11670 y luego se van a la página http://www.shop2.cz, esta regla se encuentra en un 40% dentro del conjunto analizado.

Patrones de navegaciónEjemplo de regla de asociación difusa – Página visitada – Página referenciada

Page 21: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

21

Obtención de las creencias del usuarioObtención de las creencias del usuario

Creencia del Usuario:

1. Foro → asignaturas

2. Tablón de anuncios → actividades

3. Eventos → página principal

4. Programación → página principal

Para esto hemos realizado una encuesta (referente a la navegación entre páginas).

Medidas de calidad subjetivas:Medidas de calidad subjetivas: reglas conforme (confm), reglas con consecuentes inesperados (unexpConseq), reglas con antecedentes inesperados (unexpCond) y ambos lados de la reglas inesperados (bsUnexp) [Liu et al., 2000].

Patrones de navegación Medidas de calidad (Capítulo 4)

Page 22: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

22

Conjuntos de datos:Conjuntos de datos:

Patrones de navegación Medidas de calidad (cont.)

Conjuntos de datos

Entrada de datos

originales

Entrada de datos preprocesadas

Preprocesamiento

Conjunto 1 100900 100810 Eliminación entradas idénticas

Conjunto 2 100810 46950 Eliminación entradas sin el campo de referencia

Conjunto 3 46950 16518 Eliminación de imágenes

Conjunto 4 16518 12910 Eliminación javascript

Conjunto 5 98202 15676 Preprocesamiento completo

Page 23: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

23

N° Regla Sup Con FC Lif P-S Cf UCq UCd bs

Regla 1 0.052 0.47 0.39 6.98 0.04 0.0 1.0 0.0 0.0

Regla 2 0.076 0.50 0.32 2.98 0.05 0.0 1.0 0.0 0.0

Regla 3 0.02 0.85 0.83 6.35 0.02 0.0 0.0 0.0 1.0

Regla 4 0.01 0.83 0.80 6.17 0.01 0.0 0.0 0.0 1.0

Regla 5 0.03 0.65 0.65 4.88 0.02 0.0 0.0 0.0 1.0

Reglas obtenidas Reglas obtenidas del conjunto 5:del conjunto 5:

Discusión de los resultados:Discusión de los resultados: el usuario navega habitualmente por las diferentes secciones del foro.

N° Regla Reglas Obtenidas

Regla 1 GET/apps/tablon/ → http://etsiit.ugr.es

Regla 2 GET/apps/foro/index.php → http://etsiit.ugr.es

Regla 3 GET/apps/foro/index.php?idforo=asignaturas →

http://etsiit.ugr.es/apps/foro/index.php

Regla 4 GET/apps/foro/index.php?action=foro&idforo=escuela →

http://etsiit.ugr.es/apps/foro/index.php

Regla 5 GET/apps/foro/index.php?idforo=general →

http://etsiit.ugr.es/apps/foro/index.php

Patrones de navegación Resultados (Capítulo 4)

Foro

Page 24: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

24

Minería Web de Uso - Modelo de datos.

Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de

patrones de navegación: caso real.

Análisis demográfico. (Capítulo 5)- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real (E.T.S.I.I.T.).

Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de

los perfiles de usuario.- Aplicación para un caso real.

Conclusiones y trabajos futuros.

Contenidos

Page 25: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

25

Clustering dePáginas Web

Clustering Difuso deSesiones de

usuario

Objetivo.Objetivo.

Caracterizar distintos tipos de usuarios a través de:- análisis de los grupos de páginas por los que navegan en función de su dirección.- análisis de los grupos de sesiones en función de las páginas visitadas.

Metodología.Metodología.

Análisis demográfico

Page 26: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

26

Definición clásicaDefinición clásica

Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición P= {A1, A2,…,Ac} tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima.

Clustering difuso:

Cuando la partición es difusa:

},...,2,1{ },...,2,1{

1A0 11

i1

cink

xxAm

ik

c

iki

Análisis demográficoIdeas básicas acerca de los métodos de clustering

Page 27: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

27

Levenshtein.Levenshtein.

N

j

lj

N

i

ki

N

i

N

j

lj

ki

kl

SS

SS

S

11

1 1,1

Coseno.Coseno.

Análisis demográfico Medidas utilizadas (Capítulo 5)

)},()},...,(),,...,((

caso otroen ,1),...,(),,...,((

,1),...,(),,...,((min{

0p

0q

)),...,(),,...,((

1111

111

11111

qpqp

qp

qpp

yxzyyxxL

yyxxL

yyxxL

q

p

yyxxL

Page 28: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

28

Coseno extendido.Coseno extendido.

1max,1maxmin),(

),(

11

1 1,2

ji

ji

N

j

lj

N

i

ki

N

i

N

j

lj

ki

kl

pp

ppjiSn

SS

jiSnSS

S

Análisis demográfico Medidas utilizadas (cont.)

Page 29: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

29

Definición clásicaDefinición clásica

Dado un conjunto X = {x1,x2,…,xn} queremos obtener una partición P= {A1, A2,…,Ac} tal que una cierta medida de semejanza entre los elementos de un mismo grupo sea lo mayor posible y la de entre miembros de dos grupos sea mínima.

Clustering difuso:

Cuando la partición es difusa:

},...,2,1{ },...,2,1{

1A0 11

i1

cink

xxAm

ik

c

iki

Análisis demográficoIdeas básicas acerca de los métodos de clustering

Page 30: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

30

Técnica utilizadaTécnica utilizada: Clustering jerárquico (SPSS).

Criterios utilizadosCriterios utilizados:: (Basados en su relación con la lógica difusa) [Delgado et al., 1996]

Mínima distancia entre los elementos de un grupo, máxima distancia entre grupos.

Distancia al Crisp más cercano.

Análisis demográficoObtención de la partición inicial de datos (Capítulo 5)

Page 31: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

31

Datos Iniciales

ClusteringJerárquico

Clustering

Validación deResultados

Páginas Web Sesiones deUsuario

C-medias difusoC-medias

Análisis demográfico

Page 32: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

32

N

u

CP

c

i

N

kik

1 1

2

Coeficiente de partición.Coeficiente de partición.

Coeficiente de Entropía.Coeficiente de Entropía.

c

i

N

kikaik uu

NCE

1 1

log1

Análisis demográfico Validación del clustering

Page 33: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

33

Análisis demográfico

Datos Iniciales

ClusteringJerárquico

Clustering

Validación deResultados

Páginas WebSesiones de

Usuario

C-medias difusoC-medias

Page 34: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

34

mjmippisimP j 1 ,1 )],,([

Modelo de datos asociado.Modelo de datos asociado.

},...,,{ 21 mpppP Un Conjunto de páginas definida como:

Las páginas web puede ser vista conceptualmente como una matriz página-página mxm :

Objetivo.Objetivo.

Obtener grupos de páginas web más similares para saber cuales son las más representativas de la navegación del usuario.

Análisis demográfico Clustering de páginas similares (Capítulo 5)

Page 35: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

35

Conjuntos de datos:Conjuntos de datos:

Análisis demográfico

Medida: Levenshtein

Técnica: clustering con el algoritmo c-medias

Número de particiones iniciales: 12 (obtenidos con el análisis de clustering jerárquico previamente).

Resultados del clustering de páginas similares

Conjuntos

de datos

Entrada de datos

originales

Entrada de datos

preprocesadas

Preprocesamiento

Conjunto 1 100900 100810 Eliminación entradas idénticas

Conjunto 2 16518 12910 Preprocesamiento completo

Conjunto 3 98202 15676 Preprocesamiento completo

Page 36: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

36

Cluster [Centroide]

Cluster 0 [GET/apps/foro/index.php]

Cluster 1 [GET/apps/tablon]

Cluster 2 [GET/usuarios/jmlvega/idragon/formate.css]

Cluster 3 [GET/apps/foro/index.php?action=foro&idforo=general]

Cluster 4 [GET/alumnos/diegorp/canalplus.html]

Cluster 5 [GET/apps/foro/index.php?action=foro&idforo=asignaturas]

Cluster 6 [GET/js/protWindows/themes/default.css]

Cluster 7 [GET/apps/foro/index.php?action=foro\&idforo=escuela]

Cluster 8 [GET/alumnos/mlii]

Cluster 9 [GET/HTTP/1.1]

Cluster 10 [GET/apps/foro/index.php?action=hebra\&idhebra=1939]

Cluster 11 [GET/apps/foro/index.php?action=foro&idforo=compra]

Entropía 0.00

C. De Partición 1.00

Foro

Tablón

Alumnos

Sin caracterizar

Análisis demográficoResultados del clustering de páginas similares

Page 37: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

37

Datos Iniciales

ClusteringJerárquico

Clustering

Validación deResultados

Páginas WebSesiones de

Usuario

C-medias difusoC-medias

Análisis demográfico

Page 38: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

38

A partir de esta matriz de peso sesión-página obtendremos una matriz de semejanza entre las sesiones definida

y para obtener esta semejanza aplicaremos la medida del coseno y coseno extendido.

mjisssimSS ji )],,([

Modelo de datos asociado.Modelo de datos asociado.

Objetivo.Objetivo.Obtener grupos de sesiones de usuarios que navegan por la web con características similares.

Análisis demográfico

},...,,{ 21 msssS Conjunto de sesiones S definida como:},...,,{ 21 npppP Conjunto de páginas P, definida como :

njmipswUP ji 1 ,1 )],,([ Matriz sesión-página mxn :

Clustering de difuso de sesiones de usuarios (Capítulo 5)

Page 39: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

39

Conjuntos de datos:Conjuntos de datos:

Análisis demográfico

Medidas: coseno y coseno extendido.

Técnica: clustering difuso con el algoritmo c-medias difuso.

Número de particiones iniciales: 12 (obtenidos mediante el análisis jerárquico previamente)

Resultados del clustering de sesiones de usuario

Conjuntos

de datos

Entrada de datos originales

Entrada de datos preprocesadas

N° Sesiones

Conjunto 1 100900 12910 2024

Conjunto 2 98202 15676 2780

Page 40: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

40

Coseno extendido

Discusión de los resultados:Discusión de los resultados: la medida del coseno extendido fue la que mejor representación entregaba de las sesiones con respecto a los centroidos.

Coseno

Análisis demográficoResultados del clustering de sesiones de usuario (cont.)

Page 41: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

41

Minería Web de Uso - Modelo de datos.

Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de

patrones de navegación: caso real.

Análisis demográfico.

- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa. (Capítulo 6)- Modelo de obtención y representación en XML de los perfiles de

usuario.

- Aplicación para un caso real (E.T.S.I.I.T).

Conclusiones y trabajos futuros.

Contenidos

Page 42: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

42

Objetivo.Objetivo.

Construcción de perfiles de usuario, a través de la navegación de que realiza el usuario en la web, y así poder identificar diferentes grupos sociales y/o demográficos.

Plantear un modelo de obtención y representación de los perfiles de usuarios en XML.

Perfiles de usuario

Page 43: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

43

Preprocesamientode la información

Método para la identificación de

sesiones

Técnica de Mineríapara realizar

agrupamiento de sesiones

Representación delos perfiles en

XML

Fuente de información(Ficheros log)

Identificación deentradas Identificación de

sesiones de usuarios

Grupos de sesiones Perfiles de usuario

2

13

4

56

7

8

Análisis demográficoModelo para la obtención del perfil de usuario (Capítulo 6)

Preprocesamientode la información

Método para la identificación de

sesiones

Técnica de Mineríapara realizar

agrupamiento de sesiones

Representación delos perfiles en

XML

Fuente de información(Ficheros log)

Identificación deentradas Identificación de

sesiones de usuarios

Grupos de sesiones Perfiles de usuario

2

13

4

56

7

8

Page 44: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

44

siEezKLVe iiiiii 1,,,,Relativo a los aspectos sociales: rango de edad, nivel educativo, idioma…Ficheros Log

Se asocian pesos a las páginas

Resultado de una agregación de perfiles asociados a cada sesión

Vi: Variables demográficas

Li: Variables de identificación

Ki: Variables de clickstream

z’i: Perfil simple de la sesión

Definición de perfil de usuario:Definición de perfil de usuario: colección de datos acerca de las preferencias o intereses de navegación de los usuarios .

Definición formal de perfil de usuario:Definición formal de perfil de usuario: [Martín-Bautista et al., 2002].

Análisis demográfico Definición de perfil de usuario

Page 45: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

45

Vi: Variables demográficas

Li: Variables de identificación

z’i: Perfil simple de la sesión

Ki: Variables de clickstream

Análisis demográficoModelo de representación en XML del perfil de usuario

Page 46: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

46

Vi: Variablesdemográficas

Li: Variables de identificación

z’i: Perfil simple de la sesión

Ki: Variables de clickstream

Análisis demográfico Ejemplo de perfil de usuario

Page 47: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

47

Sea C = {c1,c2,...,cn} los clusters de sesiones de usuarios más representativas de la navegación realizada por los usuarios en el sitio web de la escuela, siendo n el número de la partición inicial.

Sea Q= {q1,q2,...,qn} el conjunto de los perfiles de los usuarios obtenidos. Entonces:

C = {c1,c2,...,cn} → Q= {q1,q2,...,qn}

Análisis demográficoObtención del perfil de usuario a partir del clustering difuso

Page 48: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

48

<?xml version="1.0" encoding="UTF-8"?><Perfil11> <Identificacion_Usuario> <Tipo Tipo="alumno" /> </Identificacion_Usuario> <Paginas> <Pagina Pagina_Visitada="0">*GET/apps/foro/index.phpHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="1">*GET/apps/foro/index.php?action=foro&amp;idforo=asignaturasHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="2">*GET/apps/foro/index.php?action=foro&amp;idforo=generalHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="4">*GET/apps/tablon/HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="5">*GET/apps/foro/index.php?action=hebra&amp;idhebra=1819&amp;page=0HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&amp;idhebra=696HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="7">*GET/apps/foro/index.php?action=hebra&amp;idhebra=1349HTTP/1.0*</Pagina> <Pagina Pagina_Visitada="8">*GET/page.php?pageid=googlemapsHTTP/1.1*</Pagina> </Paginas> <Var_Demograficas> <Edad>Joven</Edad> <Paciencia>Paciente</Paciencia> <Idioma>Español</Idioma> </Var_Demograficas> <Perfil_Simple> <Terminos Termino="0">Ingeniería</Terminos> <Terminos Termino="1">Informática</Terminos> <Terminos Termino="2">Telecomunicación</Terminos> <Terminos Termino="3">Foros</Terminos> <Terminos Termino="4">Asignatura</Terminos> <Terminos Termino="5">General</Terminos> <Terminos Termino="6">Anecdotario</Terminos> <Terminos Termino="7">Googlemaps</Terminos> </Perfil_Simple></Perfil11>

Perfil de alumno obtenido del Perfil de alumno obtenido del caso real (Perfil 11, Anexo C)caso real (Perfil 11, Anexo C)

Page 49: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

49

<?xml version="1.0" encoding="UTF-8"?><Perfil10> <Identificacion_Usuario> <Tipo Tipo="profesor" /> </Identificacion_Usuario> <Paginas> <Pagina Pagina_Visitada="0">*GET/usuarios/jmlvega/idragon//formate.cssHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="1">*GET/apps/convocatorias/styles/convocatorias.cssHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="2">*GET/profesores/jmaroza/anecdotario/chmanual.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="3">*GET/profesores/jmaroza/anecdotario/anecdotario-z.htmHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="4">*GET/planes/index.php?id=3&amp;id2=127HTTP/1.1*</Pagina> <Pagina Pagina_Visitada="5">*GET/page.php?pageid=horarioHTTP/1.1*</Pagina> <Pagina Pagina_Visitada="6">*GET/apps/foro/index.php?action=hebra&amp;idhebra=1617HTTP/1.1*</Pagina> </Paginas> <Var_Demograficas> <Edad>Adulto</Edad> <Paciencia>Muy Paciente</Paciencia> <Idioma>Español</Idioma> </Var_Demograficas> <Perfil_Simple> <Terminos Termino="0">Ingeniería</Terminos> <Terminos Termino="1">Informática</Terminos> <Terminos Termino="2">Telecomunicación</Terminos> <Terminos Termino="3">Index</Terminos> <Terminos Termino="4">skin/reloaded</Terminos> <Terminos Termino="5">convocatorias</Terminos> <Terminos Termino="6">ubuntu</Terminos> <Terminos Termino="7">planes</Terminos> <Terminos Termino="8">estudio</Terminos> <Terminos Termino="9">Horario</Terminos> </Perfil_Simple></Perfil10>

Perfil de profesor obtenido del Perfil de profesor obtenido del caso real (Perfil 10, Anexo C)caso real (Perfil 10, Anexo C)

Page 50: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

50

Algunos resultadosAlgunos resultados

Perfil 10 está clasificado por la página GET/apps/convocatorias.

Perfil 12 está clasificado por la página GET/apps/descargas. Perfil 3 está clasificado por la página GET/alumnos/shin/shin.htm. Perfil 7 está clasificado por la página GET/alumnos/mlii. Perfil 4 está clasificado por la página GET/apps/foro/index.php. Perfil 6 está clasificado por las páginas: GET/apps/foro/index.php,

GET/apps/tablon,GET/alumnos/diegorp/canalplus.html, GET/alumnos/diegorp/canal.css.

AlumnoAlumno

ProfesorProfesor

MetodologíaMetodología

Árbol de decisión. Algoritmo J4.8 (C4.5), (WEKA).

Análisis demográficoClasificación de los perfiles a partir de las páginas web

Page 51: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

51

Minería Web de Uso - Modelo de datos.

Análisis de patrones de navegación. - Obtención de reglas de asociación difusas para el análisis de

patrones de navegación: caso real.

Análisis demográfico.- Clustering de páginas similares: caso real.- Clustering difuso de sesiones de usuarios: caso real.

Perfiles de usuario y lógica difusa.- Modelo de obtención y representación en XML de

los perfiles de usuario.- Aplicación para un caso real.

Conclusiones y trabajos futuros. (Capítulo 7)

Contenidos

Page 52: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

52

Obtención de patrones de navegación:Obtención de patrones de navegación:

Hemos planteado un modelo de obtención de reglas de asociación difusas .

Hemos llevado a cabo un proceso de interpretación semántica aplicando tanto medidas de interés objetivas como medidas de interés subjetivas.

Hemos experimentado sobre un sitio web real.

ConclusionesConclusiones

Conclusiones y Trabajos Futuros

Page 53: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

53

Análisis demográfico:Análisis demográfico:

Utilizando diversas técnicas del clustering hemos podido establecer una metodología para realizar diferentes agrupaciones de los elementos que participan en un sitio web.

Hemos utilizado el clustering jerárquico para la obtención de la partición inicial de los datos y hemos utilizado el coeficiente de partición y la entropía como medidas de validación para las técnicas anteriores.

Por último, hemos experimentado sobre un caso real que nos permitió identificar diferentes grupos demográficos de usuarios.

Conclusiones

Page 54: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

54

Construcción de perfiles de usuario:Construcción de perfiles de usuario:

Hemos planteado una nueva representación de los perfiles de usuarios en XML

Hemos definido un modelo de obtención de los perfiles de usuarios, basándonos en el análisis demográfico realizado en el clustering difuso de las sesiones de usuarios.

Hemos realizado una clasificación de los perfiles de usuarios a través de las páginas web más representativas.

Conclusiones

Page 55: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

55

Extender los resultados obtenidos a otros sitios web hasta desarrollar una herramienta integrada que incluya tanto los procesos de análisis descritos como la actualización dinámica y online de los perfiles de usuario.

Ampliar el estudio de otras agrupaciones, asociaciones y relaciones entre los elementos que participan en el sitio web.

En un futuro, extenderemos el uso de los perfiles de usuario para desarrollar un sistema de recomendación que complete el proceso de personalización aquí iniciado.

Trabajos futuros

Page 56: Minería Web de Uso y Perfiles de Usuario: Aplicaciones con Lógica Difusa Víctor Heughes Escobar Jeria Granada, 2007 Directoras: Dra. María José Martín

56

Gracias…

“Cada día sabemos más y entendemos menos…”

Albert Einstein