las matem aticas de pagerank · 2013-03-14 · an alisis de enlaces google pagerank: lawrence page...
TRANSCRIPT
![Page 1: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/1.jpg)
Las Matematicas de PageRanky otros metodos de busqueda web
Eustasio del Barrio
Universidad de Valladolid. IMUVA.
Marzo, 2013
Eustasio del Barrio Las Matematicas de PageRank 1 / 31
![Page 2: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/2.jpg)
Plan
Plan
1 Busqueda de informacion
2 Motores de busqueda
3 Analisis de enlaces
4 Conclusiones
5 Referencias
Eustasio del Barrio Las Matematicas de PageRank 2 / 31
![Page 3: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/3.jpg)
Plan
Plan
1 Busqueda de informacion
2 Motores de busqueda
3 Analisis de enlaces
4 Conclusiones
5 Referencias
Eustasio del Barrio Las Matematicas de PageRank 2 / 31
![Page 4: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/4.jpg)
Plan
Plan
1 Busqueda de informacion
2 Motores de busqueda
3 Analisis de enlaces
4 Conclusiones
5 Referencias
Eustasio del Barrio Las Matematicas de PageRank 2 / 31
![Page 5: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/5.jpg)
Plan
Plan
1 Busqueda de informacion
2 Motores de busqueda
3 Analisis de enlaces
4 Conclusiones
5 Referencias
Eustasio del Barrio Las Matematicas de PageRank 2 / 31
![Page 6: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/6.jpg)
Plan
Plan
1 Busqueda de informacion
2 Motores de busqueda
3 Analisis de enlaces
4 Conclusiones
5 Referencias
Eustasio del Barrio Las Matematicas de PageRank 2 / 31
![Page 7: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/7.jpg)
Busqueda de informacion
Busqueda de informacion: (pre)historia
Busqueda de informacion (IR) = busqueda en coleccion de documentosde informacion particular (consulta)
A.C.: colecciones pequenas; etiquetas en rollos de papiro
A.C.: papiro → pergamino; formato libro
Siglo XII: “invencion” del papel; colecciones en monasterios;organizacion por secciones; listas de documentos
1450: Gutemberg, imprenta
Siglo XVIII: primeras bibliotecas publicas; busqueda orientada
1872: clasificacion decimal (Dewey)
1900: Catalogo de tarjetas (por autor, tıtulo)
1940-1950: Ordenador
1989: nacimiento del www (Berner-Lee)
Eustasio del Barrio Las Matematicas de PageRank 3 / 31
![Page 8: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/8.jpg)
Motores de busqueda
El metodo SMART
1960’s; implementado en IBM 7094 & IBM 360Basado en metodos matriciales (matrices termino-documento)
Comienza con diccionario de terminos (palabras o expresiones)
Se indexa cada documento
frecuencia fi,j = #veces termino i aparece en documento j
Matriz termino-documento
Eustasio del Barrio Las Matematicas de PageRank 4 / 31
![Page 9: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/9.jpg)
Motores de busqueda
Vector de consulta:
qT = [q1, . . . , qm] qi ={
1 si termino i presente en consulta0 si no
¿Es el documento i una buena respuesta a la consulta?
¿Esta el vector q cerca de la columna Ai?
Se usa δi = cos θi =qTAi
‖q‖‖Ai‖Se ordenan documentos por δi creciente
Se sugiere documento i a usuario si δi ≥ tol
Mejoras posibles “comprimiendo” matriz A(Dumais, 1989,1994; Bel Labs)
Eustasio del Barrio Las Matematicas de PageRank 5 / 31
![Page 10: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/10.jpg)
Motores de busqueda
Busqueda de informacion: metodos “antiguos”
Ventajas
Encuentran conexiones ocultas
Pueden usarse para identificar clusters de documentos (textmining)
Funcionan bien en colecciones pequenas + homogeneas +estaticas
Inconvenientes
Ranking dependiente de consulta (recalculado para cada consulta)
Solo usa contenido semantico (vıctima facil de spam, estructurade enlaces ignorada)
Dıficil anadir/borrar documentos
Compresion optima no sencilla
Eustasio del Barrio Las Matematicas de PageRank 6 / 31
![Page 11: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/11.jpg)
Motores de busqueda
Busqueda indexada en web
Eustasio del Barrio Las Matematicas de PageRank 7 / 31
![Page 12: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/12.jpg)
Motores de busqueda
Busqueda indexada en web (pre 1998)
patrulla fronteriza: 4; 567; 809; 1103; . . . (8,700,000 en total)
Hezbollah: 9; 12; 339; 942; 15158; . . . (15,100,000 en total)
calentamiento global: 178; 12980; 445532; . . . (33,200,000 en total)
demasiados enlaces por busqueda
facil spam
Yahoo: jerarquıas de sitios web, organizacion humana
Eustasio del Barrio Las Matematicas de PageRank 8 / 31
![Page 13: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/13.jpg)
Motores de busqueda
Cuando se proclamo que la Biblioteca abarcaba todos loslibros, la primera impresion fue de extravagante felicidad.Todos los hombres se sintieron senores de un tesoro intacto ysecreto. No habıa problema personal o mundial cuyaelocuente solucion no existiera: en algun hexagono.. . . A la desaforada esperanza, sucedio, como es natural, unadepresion excesiva. La certidumbre de que algun anaquel enalgun hexagono encerraba libros preciosos y de que esos librospreciosos eran inaccesibles, parecio casi intolerable. Una sectablasfema sugirio que cesaran las buscas. . .
Eustasio del Barrio Las Matematicas de PageRank 9 / 31
![Page 14: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/14.jpg)
Analisis de enlaces
1998: hiperenlaces en accion
Nuevos metodos combinan ranking IR con nuevo ranking depopularidad
La web es diferente de otras colecciones de documentos
es enorme
es dinamica
carece de organizacion centralizada
tiene hiperenlaces
Eustasio del Barrio Las Matematicas de PageRank 10 / 31
![Page 15: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/15.jpg)
Analisis de enlaces
Elementos de un motor de busqueda web
Eustasio del Barrio Las Matematicas de PageRank 11 / 31
![Page 16: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/16.jpg)
Analisis de enlaces
Modulo de ranking: genera ranking de popularidad
mide importancia de cada pagina
medida independiente de consulta, basada en estructura de enlaces
calculado offline, antes de atender consultas de usuarios
algoritmo PageRank de Google se impuso a competidores
Google PageRank = Google $$$
Eustasio del Barrio Las Matematicas de PageRank 12 / 31
![Page 17: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/17.jpg)
Analisis de enlaces
Eustasio del Barrio Las Matematicas de PageRank 13 / 31
![Page 18: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/18.jpg)
Analisis de enlaces
Google PageRank: Lawrence Page & Sergey Brin, 1998
Idea
Crear ranking r(P ) independiente de consulta
Calculos off-line; ahorro computacion en consultas
La web vota con in-links; in-links de sitios importantes pesan mas
in-links de sitio con muchos out-links pesan menos
Eustasio del Barrio Las Matematicas de PageRank 14 / 31
![Page 19: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/19.jpg)
Analisis de enlaces
El algoritmo PageRank
r(P ) =∑
Q∈BP
r(Q)|Q|
BP paginas con enlaces a P ; |Q| numero de paginas enlazadas desde Q
Metodo iterativo: inicialmente r0(P ) = 1n para todas paginas
P1, . . . , Pn
r1(P ) =∑
Q∈BP
r0(Q)|Q|
r2(P ) =∑
Q∈BP
r1(Q)|Q|
...
Eustasio del Barrio Las Matematicas de PageRank 15 / 31
![Page 20: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/20.jpg)
Analisis de enlaces
El algoritmo PageRank
r(P ) =∑
Q∈BP
r(Q)|Q|
BP paginas con enlaces a P ; |Q| numero de paginas enlazadas desde Q
Metodo iterativo: inicialmente r0(P ) = 1n para todas paginas
P1, . . . , Pn
r1(P ) =∑
Q∈BP
r0(Q)|Q|
r2(P ) =∑
Q∈BP
r1(Q)|Q|
...
Eustasio del Barrio Las Matematicas de PageRank 15 / 31
![Page 21: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/21.jpg)
Analisis de enlaces
Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],
πTk+1 = πT
k H, hi,j ={
1/|Pi| si i→ j0 si no
Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)
si el lımite existe
¿se estabilizan los iterantes?¿mide realmente la importancia de las paginas?
Eustasio del Barrio Las Matematicas de PageRank 16 / 31
![Page 22: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/22.jpg)
Analisis de enlaces
Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],
πTk+1 = πT
k H, hi,j ={
1/|Pi| si i→ j0 si no
Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)
si el lımite existe¿se estabilizan los iterantes?
¿mide realmente la importancia de las paginas?
Eustasio del Barrio Las Matematicas de PageRank 16 / 31
![Page 23: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/23.jpg)
Analisis de enlaces
Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],
πTk+1 = πT
k H, hi,j ={
1/|Pi| si i→ j0 si no
Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)
si el lımite existe¿se estabilizan los iterantes?
¿mide realmente la importancia de las paginas?
Eustasio del Barrio Las Matematicas de PageRank 16 / 31
![Page 24: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/24.jpg)
Analisis de enlaces
Tras iteracion k, πTk = [rk(P1), . . . , rk(Pn)],
πTk+1 = πT
k H, hi,j ={
1/|Pi| si i→ j0 si no
Vector PageRank πT = lımk→∞ πTk = πTH (autovector de H)
si el lımite existe¿se estabilizan los iterantes?
¿mide realmente la importancia de las paginas?
Eustasio del Barrio Las Matematicas de PageRank 16 / 31
![Page 25: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/25.jpg)
Analisis de enlaces
El modelo del internauta aleatorio
Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina
Xn = pagina visitada en instante n
Eustasio del Barrio Las Matematicas de PageRank 17 / 31
![Page 26: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/26.jpg)
Analisis de enlaces
El modelo del internauta aleatorio
Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina
Xn = pagina visitada en instante n
Eustasio del Barrio Las Matematicas de PageRank 17 / 31
![Page 27: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/27.jpg)
Analisis de enlaces
El modelo del internauta aleatorio
Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina
Xn = pagina visitada en instante n
Eustasio del Barrio Las Matematicas de PageRank 17 / 31
![Page 28: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/28.jpg)
Analisis de enlaces
El modelo del internauta aleatorio
Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina
Xn = pagina visitada en instante n
Eustasio del Barrio Las Matematicas de PageRank 17 / 31
![Page 29: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/29.jpg)
Analisis de enlaces
El modelo del internauta aleatorio
Internauta parte de pagina web. Aleatoriamente elige enlace a otrapagina
Xn = pagina visitada en instante n
Eustasio del Barrio Las Matematicas de PageRank 17 / 31
![Page 30: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/30.jpg)
Analisis de enlaces
Xn es una cadena de Markov
P2 es un estado absorbente (dangling node; pagina sin enlaces)
πT = [0, 1, 0, 0, 0, 0]; P2 es un ‘sumidero’ de ranking
Ranking no resulta interesante
‘Dangling nodes’ no cortan navegacion de internautas reales;permitimos salto al azar
Cambiamos filas de ceros por eT
n = [ 1n , . . . ,
1n ]
Eustasio del Barrio Las Matematicas de PageRank 18 / 31
![Page 31: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/31.jpg)
Analisis de enlaces
S es una matriz estocastica, m. de transicion de una cadena de Markov
πT = πTS πT distribucion estacionaria
La web no es ‘fuertemente conexa’; S no es irreducible (hay i 9 j)
Puede haber ‘ciclos’: i→ j → i
Teorema
Si S irreducible y aperiodica existe una unica distribucion estacionaria,πT . Ademas
πTk → π independientemente de πT
0
Eustasio del Barrio Las Matematicas de PageRank 19 / 31
![Page 32: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/32.jpg)
Analisis de enlaces
La matriz Google
Solucion a problemas: permitir salto aleatorio desde cualquier pagina
G = αS + (1− α)eeT
n
G es irreducible y aperiodica tiene distribucion estacionaria unica
πj = proporcion de tiempo que el internauta aleatorio pasa en pagina j
Eustasio del Barrio Las Matematicas de PageRank 20 / 31
![Page 33: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/33.jpg)
Analisis de enlaces
Algunos aspectos importantes
En la Web real n ∼ 1012
La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)
Aun ası almacenamiento de G costoso y calculo de πTk+1 tambien
Cada iteracion requiere ∼ 1024 operaciones
Pero hay buenas noticias
Teorema ∑j
|π(k)j − πj | ≤ 2αk
Si α = 0.85, 50-100 iteraciones garantizan buena aproximacion(10−3 − 10−7) independiente de dimension!!
El resto de la historia es conocido
Eustasio del Barrio Las Matematicas de PageRank 21 / 31
![Page 34: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/34.jpg)
Analisis de enlaces
Algunos aspectos importantes
En la Web real n ∼ 1012
La matriz de hiperenlaces es dispersa (menos de 10 out-links en media)
Aun ası almacenamiento de G costoso y calculo de πTk+1 tambien
Cada iteracion requiere ∼ 1024 operaciones
Pero hay buenas noticias
Teorema ∑j
|π(k)j − πj | ≤ 2αk
Si α = 0.85, 50-100 iteraciones garantizan buena aproximacion(10−3 − 10−7) independiente de dimension!!
El resto de la historia es conocido
Eustasio del Barrio Las Matematicas de PageRank 21 / 31
![Page 35: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/35.jpg)
Analisis de enlaces
Eustasio del Barrio Las Matematicas de PageRank 22 / 31
![Page 36: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/36.jpg)
Analisis de enlaces
HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)
Distincion entre autoridades y distribuidores (hubs)
Buenas autoridades enlazadas desde buenos hubs
Buenos hubs enlazan a buenas autoridades
Eustasio del Barrio Las Matematicas de PageRank 23 / 31
![Page 37: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/37.jpg)
Analisis de enlaces
HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)
Distincion entre autoridades y distribuidores (hubs)
Buenas autoridades enlazadas desde buenos hubs
Buenos hubs enlazan a buenas autoridades
Eustasio del Barrio Las Matematicas de PageRank 23 / 31
![Page 38: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/38.jpg)
Analisis de enlaces
HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)
Distincion entre autoridades y distribuidores (hubs)
Buenas autoridades enlazadas desde buenos hubs
Buenos hubs enlazan a buenas autoridades
Eustasio del Barrio Las Matematicas de PageRank 23 / 31
![Page 39: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/39.jpg)
Analisis de enlaces
HITS (Hypertext Induced Topic Selection, Jon Kleinberg, 1997)
Distincion entre autoridades y distribuidores (hubs)
Buenas autoridades enlazadas desde buenos hubs
Buenos hubs enlazan a buenas autoridades
Eustasio del Barrio Las Matematicas de PageRank 23 / 31
![Page 40: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/40.jpg)
Analisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
Inicialmente hi = 1; h0 =
1...1
Puntuacion inicial de autoridad ai =∑
j:Pj→Pihi; a1 =
a1...an
= LTh0
Li,j ={
1, Pi → Pj
0, Pi 9 Pj
Eustasio del Barrio Las Matematicas de PageRank 24 / 31
![Page 41: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/41.jpg)
Analisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
Inicialmente hi = 1; h0 =
1...1
Puntuacion inicial de autoridad ai =∑
j:Pj→Pihi; a1 =
a1...an
= LTh0
Li,j ={
1, Pi → Pj
0, Pi 9 Pj
Eustasio del Barrio Las Matematicas de PageRank 24 / 31
![Page 42: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/42.jpg)
Analisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
Inicialmente hi = 1; h0 =
1...1
Puntuacion inicial de autoridad ai =∑
j:Pj→Pihi; a1 =
a1...an
= LTh0
Li,j ={
1, Pi → Pj
0, Pi 9 Pj
Eustasio del Barrio Las Matematicas de PageRank 24 / 31
![Page 43: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/43.jpg)
Analisis de enlaces
HITS
ai = puntuacion como autoridad para pagina Pi
hi = puntuacion como hub para pagina Pi
Inicialmente hi = 1; h0 =
1...1
Puntuacion inicial de autoridad ai =∑
j:Pj→Pihi; a1 =
a1...an
= LTh0
Li,j ={
1, Pi → Pj
0, Pi 9 Pj
Eustasio del Barrio Las Matematicas de PageRank 24 / 31
![Page 44: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/44.jpg)
Analisis de enlaces
HITS
Se refina puntuacion hub: hi =∑
j:Pi→Pjaj ; h1 = La1
En pasos sucesivos a2 = LTh1, h2 = La2,. . .
A = LTL matriz de autoridades ak+1 = Aak
H = LLT matriz de hubs hk+1 = Hhk
ak → a; hk → h; autovectores
a,h no bien definidos si A,H reducibles
Eustasio del Barrio Las Matematicas de PageRank 25 / 31
![Page 45: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/45.jpg)
Analisis de enlaces
HITS
Se refina puntuacion hub: hi =∑
j:Pi→Pjaj ; h1 = La1
En pasos sucesivos a2 = LTh1, h2 = La2,. . .
A = LTL matriz de autoridades ak+1 = Aak
H = LLT matriz de hubs hk+1 = Hhk
ak → a; hk → h; autovectores
a,h no bien definidos si A,H reducibles
Eustasio del Barrio Las Matematicas de PageRank 25 / 31
![Page 46: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/46.jpg)
Analisis de enlaces
HITS
Se refina puntuacion hub: hi =∑
j:Pi→Pjaj ; h1 = La1
En pasos sucesivos a2 = LTh1, h2 = La2,. . .
A = LTL matriz de autoridades ak+1 = Aak
H = LLT matriz de hubs hk+1 = Hhk
ak → a; hk → h; autovectores
a,h no bien definidos si A,H reducibles
Eustasio del Barrio Las Matematicas de PageRank 25 / 31
![Page 47: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/47.jpg)
Analisis de enlaces
HITS
Se refina puntuacion hub: hi =∑
j:Pi→Pjaj ; h1 = La1
En pasos sucesivos a2 = LTh1, h2 = La2,. . .
A = LTL matriz de autoridades ak+1 = Aak
H = LLT matriz de hubs hk+1 = Hhk
ak → a; hk → h; autovectores
a,h no bien definidos si A,H reducibles
Eustasio del Barrio Las Matematicas de PageRank 25 / 31
![Page 48: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/48.jpg)
Analisis de enlaces
HITS
Se refina puntuacion hub: hi =∑
j:Pi→Pjaj ; h1 = La1
En pasos sucesivos a2 = LTh1, h2 = La2,. . .
A = LTL matriz de autoridades ak+1 = Aak
H = LLT matriz de hubs hk+1 = Hhk
ak → a; hk → h; autovectores
a,h no bien definidos si A,H reducibles
Eustasio del Barrio Las Matematicas de PageRank 25 / 31
![Page 49: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/49.jpg)
Analisis de enlaces
Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos
HITS da dos rankings interesantes
ranking es query-dependent; demasiada computacion por consulta
A, H no estocasticas; modificaciones posibles
SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)
Eustasio del Barrio Las Matematicas de PageRank 26 / 31
![Page 50: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/50.jpg)
Analisis de enlaces
Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos
HITS da dos rankings interesantes
ranking es query-dependent; demasiada computacion por consulta
A, H no estocasticas; modificaciones posibles
SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)
Eustasio del Barrio Las Matematicas de PageRank 26 / 31
![Page 51: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/51.jpg)
Analisis de enlaces
Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos
HITS da dos rankings interesantes
ranking es query-dependent; demasiada computacion por consulta
A, H no estocasticas; modificaciones posibles
SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)
Eustasio del Barrio Las Matematicas de PageRank 26 / 31
![Page 52: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/52.jpg)
Analisis de enlaces
Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos
HITS da dos rankings interesantes
ranking es query-dependent; demasiada computacion por consulta
A, H no estocasticas; modificaciones posibles
SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)
Eustasio del Barrio Las Matematicas de PageRank 26 / 31
![Page 53: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/53.jpg)
Analisis de enlaces
Problema reducido si se calculan a,h sobre grafo asociado aquery+vecinos
HITS da dos rankings interesantes
ranking es query-dependent; demasiada computacion por consulta
A, H no estocasticas; modificaciones posibles
SALSA (Stochastic Approach for Link-Structure Analysis, Lempel& Moran)
Eustasio del Barrio Las Matematicas de PageRank 26 / 31
![Page 54: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/54.jpg)
Analisis de enlaces
Enganando a PageRank
PageRank asume ‘buena fe’ en enlaces y paginas (don’t be evil)
Manipular PageRank puede producir beneficios (rendimientopublicitario, divertirse un poco,. . . )
Eustasio del Barrio Las Matematicas de PageRank 27 / 31
![Page 55: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/55.jpg)
Analisis de enlaces
Enganando a PageRank
PageRank asume ‘buena fe’ en enlaces y paginas (don’t be evil)
Manipular PageRank puede producir beneficios (rendimientopublicitario, divertirse un poco,. . . )
Eustasio del Barrio Las Matematicas de PageRank 27 / 31
![Page 56: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/56.jpg)
Analisis de enlaces
Eustasio del Barrio Las Matematicas de PageRank 28 / 31
![Page 57: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/57.jpg)
Analisis de enlaces
Eustasio del Barrio Las Matematicas de PageRank 28 / 31
![Page 58: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/58.jpg)
Analisis de enlaces
Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no
SEO’s, link farms
Efecto de link farms controlable (?) analizando grafo
Eustasio del Barrio Las Matematicas de PageRank 29 / 31
![Page 59: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/59.jpg)
Analisis de enlaces
Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no
SEO’s, link farms
Efecto de link farms controlable (?) analizando grafo
Eustasio del Barrio Las Matematicas de PageRank 29 / 31
![Page 60: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/60.jpg)
Analisis de enlaces
Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no
SEO’s, link farms
Efecto de link farms controlable (?) analizando grafo
Eustasio del Barrio Las Matematicas de PageRank 29 / 31
![Page 61: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/61.jpg)
Analisis de enlaces
Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no
SEO’s, link farms
Efecto de link farms controlable (?) analizando grafo
Eustasio del Barrio Las Matematicas de PageRank 29 / 31
![Page 62: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/62.jpg)
Analisis de enlaces
Paginas accedidas desde paginas relacionadas con consultaconsideradas relevantes tambien
Bomba desactivada; otras debilidades descubiertas
El vector PageRank es estable; el ranking, no
SEO’s, link farms
Efecto de link farms controlable (?) analizando grafo
Eustasio del Barrio Las Matematicas de PageRank 29 / 31
![Page 63: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/63.jpg)
Conclusiones
Matematicas resuelven problemas; soluciones utiles en problemasconcretos
Historia no terminada: link farms, SEO, Google Panda, GooglePenguin,. . .
Machine learning, BigData, Social Netwokrs, . . . areas activas deinvestigacion matematica/estadıstica/informatica teorica yaplicada
Tambien una gran fuente de empleo
Eustasio del Barrio Las Matematicas de PageRank 30 / 31
![Page 64: Las Matem aticas de PageRank · 2013-03-14 · An alisis de enlaces Google PageRank: Lawrence Page & Sergey Brin, 1998 Idea Crear ranking r(P) independiente de consulta C alculos](https://reader033.vdocuments.pub/reader033/viewer/2022042309/5ed645e80c1f140c715b60ed/html5/thumbnails/64.jpg)
Referencias
Libros:
Langville, A. N. y Meyer, C. D. (2006). Google’s PageRank andBeyond: The Science of Search Engine Rankings. Princeton Univ. Press.
Manning, C.D., Raghavan, P. y Schutze, H. (2008). Introduction toInformation Retrieval, Cambridge University Press.
Bonato, A. (2008). A Course on the Web Graph. A.M.S. - GraduateStudies in Mathematics.
Algorithms and Models for the Web-Graph. Lecture Notes in ComputerScience. Springer. (9o workshop en 2012)
Artıculo:
Langville, A. N. y Meyer, C. D. (2003). Deeper inside pagerank.Internet Mathematics, 1, 335–380.
Eustasio del Barrio Las Matematicas de PageRank 31 / 31