¿cómo trabajar en el grafo web?
DESCRIPTION
http://reina.usal.es. REcuperación de la INformación Avanzada. ¿Cómo trabajar en el grafo web?. José Luis Alonso Berrocal. Dpto. de Informática y Automática. Estructura de enlaces en el web. Recorrido del grafo web. Básicamente lo podemos recorrer:. Recorrido en anchura (breadth-first). - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/1.jpg)
¿Cómo trabajar en el grafo web?¿Cómo trabajar en el grafo web?
José Luis Alonso BerrocalJosé Luis Alonso Berrocal
http://reina.usal.es
Dpto. de Informática y Automática.
![Page 2: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/2.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
2 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Estructura de enlaces en el web
![Page 3: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/3.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
3 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido del grafo web.
Básicamente lo podemos recorrer:
Recorrido en anchura (breadth-first).
Recorrido en profundidad (depth-first).
El mejor posible (best-first).
![Page 4: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/4.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
4 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido del grafo (II)
Recorrido en anchura: 1-2-3-4-7-5-8-9-10-6
Recorrido en profundidad: 1-2-4-5-6-3-7-8-9-10
![Page 5: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/5.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
5 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Procedimiento básico
WEB
Urls a seguirUrls visitados
Base de datosFicheros ascii
URL inicialURL inicial
Se carga la páginaSe carga la página
Se extraen los URL
Se extraen los URL
Almacenar lainformación
Almacenar lainformación
Seguir el siguienteURL
Seguir el siguienteURLOperaciones de normalización:
- convertir URL a minúscula - Eliminar anclas - Emplear igual codificación - Heurística para pag. Defecto - Resolver URL relativo
![Page 6: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/6.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
6 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido avanzado
![Page 7: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/7.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
7 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Recorrido avanzado (II)
![Page 8: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/8.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
8 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
WebBotHarvest-NGWebvac SpiderSocSciBot 3 y SocSciBot_ToolsSacarinoBot y EloisaBot Tools
Web crawlers para captura de datos
![Page 9: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/9.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
9 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Sonda AutomatiCA para la Recuperación de INformaciÓn en el web)
![Page 10: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/10.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
10 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Clasificación)
![Page 11: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/11.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
11 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Clasificación II)
![Page 12: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/12.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
12 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Sacarino (Clasificación III)
![Page 13: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/13.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
13 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Creación de matrices
0100000000
0000010100
0000001000
1110001010
1010011000
0000100000
0001010000
0001000001
0000001100
0000000110
10
9
8
7
6
5
4
32
1
10987654321
![Page 14: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/14.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
14 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Operaciones con matrices
![Page 15: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/15.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
15 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Matriz de distancia.
![Page 16: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/16.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
16 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Se pueden resumir los datos de la siguiente forma:
Resumen de los datos
![Page 17: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/17.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
17 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Tratamiento de los datos
![Page 18: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/18.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
18 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Herramienta de cálculo
![Page 19: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/19.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
19 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Matriz sparse
0100000000
0000010100
0000001000
1110001010
1010011000
0000100000
0001010000
0001000001
0000001100
0000000110
10
9
8
7
6
5
4
32
1
10987654321
![Page 20: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/20.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
20 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
PageRank
jBj j
i xN
xi
1
importancia pagina i
paginas j que enlazan a pagina i
Nº enlaces salientes desde página j
importancia pagina j
![Page 21: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/21.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
21 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Estructura de enlaces en el web
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
0 1/20 0 0 0 00 0 0
1/2 00 0 0 0 01/5 0 0
1/2 01/2 0 0 0 00 1/2 0
0 01/2 0 0 1/4 11/5 0 0
1 32 4 5 6 87 9 10
0 00 1/2 0 1/4 00 1/2 0
0 00 0 1 0 00 0 0
0 1/20 1/2 0 0 00 0 0
0 00 0 0 1/4 01/5 0 0
0 00 0 0 0 01/5 0 1
0 00 0 0 1/4 01/5 0 0
1
2
3
4
5
6
7
8
9
10
![Page 22: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/22.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
22 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Resultado final
---- Iteración 1 ----
0.0500.0700.1500.1950.1250.1000.1000.0450.1200.045
NORM es 1.000000
Residual es 0.380000
---- Iteratión 3 ----
0.0600.0720.0930.1330.1260.1830.1230.0660.0800.066
NORM es 1.000000
Residual es 0.297500
---- Iteración 10 ----
0.0460.0480.0920.1530.1610.1600.1210.0660.0880.066
NORM es 1.000000
Residual es 0.017855
---- Iteración 20 ----
0.0450.0470.0910.1530.1620.1610.1220.0650.0890.065
NORM es 1.000000
Residual es 0.000896
El “eigen vector” principal (contiene los valores del PageRank)
![Page 23: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/23.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
23 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Pajek
![Page 24: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/24.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
24 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Conversión a formato Pajek
![Page 25: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/25.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
25 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Representación del grafo
![Page 26: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/26.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
26 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Representación del grafo (II)
![Page 27: ¿Cómo trabajar en el grafo web?](https://reader035.vdocuments.pub/reader035/viewer/2022081506/5681423f550346895dae6070/html5/thumbnails/27.jpg)
htt
p:/
/rei
na.
usa
l.es
htt
p:/
/rei
na.
usa
l.es
¿Cómo ¿Cómo trabajar trabajar
en el grafo en el grafo web?web?
27 Cibermetría aplicada: posicionamiento en el web. Actividad paralela. FESABID 2005.
Representación del grafo (III)