laplacianos y aprendizaje semisupervisado
Post on 13-Jul-2022
1 Views
Preview:
TRANSCRIPT
Laplacianos y aprendizaje semisupervisado
Difusiรณn en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)
cte de difusiรณn
๐๐ฅ๐๐๐ก
= ๐ถ ๐ด๐๐ (๐ฅ๐โ๐ฅ๐)
๐
๐=1
= ๐ถ ๐ด๐๐๐ฅ๐
๐
๐=1
โ ๐ถ ๐ด๐๐๐ฅ๐
๐
๐=1
= ๐ถ ๐ด๐๐๐ฅ๐
๐
๐=1
โ ๐ถ๐๐๐ฅ๐
๐๐
= ๐ถ ๐ด๐๐๐ฅ๐
๐
๐=1
โ ๐ถ๐ฟ๐๐๐๐๐ฅ๐
๐๐ฅ๐๐๐ก
= โ๐ถ ๐ฟ๐๐๐๐ โ ๐ด๐๐ ๐ฅ๐
๐
๐=1
[๐ฟ]๐๐
๐๐
๐๐ก= โ๐ถ. ๐ฟ ๐ ๐๐
๐๐ก= ๐ถ๐ป2๐
Ec de difusion de calor
Difusiรณn en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)
cte de difusiรณn
๐๐ฅ๐๐๐ก
= โ๐ถ ๐ฟ๐๐๐๐ โ ๐ด๐๐ ๐ฅ๐
๐
๐=1
[๐ฟ]๐๐
๐ฟ = ๐ท โ ๐ด
Propiedades
L es simรฉtrica L es semidefinida-positiva (i.e. autovalores ๐๐ โฅ 0, ๐ = 1โฆ๐) Suma por columnas y por filas de L es cero Siempre ๐ = 0 es autovalor de L con autovector v0=(1,1,โฆ,1), ya
que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible)
๐ฟ = ๐ท โ ๐ด
Propiedades
L es simรฉtrica L es semidefinida-positiva (i.e. autovalores ๐๐ โฅ 0 , ๐ = 1โฆ๐) Suma por columnas y por filas de L es cero Siempre ๐ = 0 es autovalor de L con autovector v0=(1,1,โฆ,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaรฑos n1, n2,โฆ, np
๐ฟ = ๐ท โ ๐ด
L1
L2
Notar que ahora habrรก p autovectores de L asociados a ๐ = 0 de la forma
(1,โฆ , 1๐1
, 0,0, . . . , 0)
(0,โฆ , 0 ,๐1
1, โฆ , 1๐2
, 0,0, . . . , 0)
(0,โฆ , 0๐1
, 0, โฆ , 0๐2
, 1, โฆ , 1๐3
, 0,0, . . . , 0)
Laplaciano combinatorio
Propiedades
L es simรฉtrica L es semidefinida-positiva (i.e. autovalores ๐๐ โฅ 0, ๐ = 1โฆ๐) Suma por columnas y por filas de L es cero Siempre ๐ = 0
es autovalor de L con autovector v0=(1,1,โฆ,1), ya que L v0 = 0 v0 = 0
L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaรฑos n1, n2,โฆ, np, existen p autovectores de L
asociados a ๐ = 0
๐ฟ = ๐ท โ ๐ด
Corolario: - el segundo autovalor de L es ๐2 โ 0 sii el grafo posee una รบnica componente - ๐2 se denomina conectividad algebraica de la red
Laplaciano combinatorio
Autovectores de L
autovector i-esimo
๐ณ๐๐ = ๐๐๐๐
๐๐ define un campo escalar sobre el grafo
Notar: autovectores de bajo รญndice estรกn asociados a campos mรกs suaves sobre el grafo
Caminatas al azarโฆy difusiรณn
๐๐ ๐ก + 1 = 1
๐๐๐๐๐ ๐๐(๐ก)
๐
๐=1
Esta misma ecuaciรณn aplica a procesos de tipo difusivos en una red, donde en cada paso temporal toda la cantidad de material que se encuentra en el nodo-i es repartida y enviada a sus vecinos
๐ฅ๐ ๐ก + 1 = 1
๐๐๐๐๐ ๐ฅ๐(๐ก)
๐
๐=1
pi(t) probabilidad de encontrar a Juan en el nodo-i, en el paso temporal t
xj(t) cantidad de material que a tiempo t se encuentra en el nodo-j
el recurso xj se reparte extensivamente
Difusiรณn random-walk en redes
en cada nodo hay una cantidad xi de material
A cada paso, la cantidad xi de cada nodo se altera
๐ฅ๐ ๐ก + 1 = 1
๐๐๐๐๐ ๐ฅ๐(๐ก)
๐
๐=1
โ๐ฅ๐ = ๐ฅ๐ ๐ก + 1 โ ๐ฅ๐ ๐ก = 1
๐๐๐๐๐ ๐ฅ๐ ๐ก
๐
๐=1
โ ๐ฅ๐ ๐ก
= 1
๐๐๐๐๐ ๐ฅ๐ ๐ก
๐
๐=1
โ ๐ฟ๐๐ ๐ฅ๐ ๐ก ๐ฟ๐๐ = 1 ๐ ๐๐ ๐ = ๐
= โ ๐ฟ๐๐ โ1
๐๐๐๐๐
[๐ฟ๐๐ค]๐๐
๐
๐=1
๐ฅ๐ ๐ก
Laplaciano random-walk
โ๐ = โ๐ฟ๐๐ค๐ ๐๐
๐๐ก= โ๐ฟ๐๐ค๐
๐๐
๐๐ก= ๐ป2๐
Laplacianos
๐๐ฅ๐๐๐ก
= โ ๐ฟ๐๐ โ1
๐๐๐๐๐ ๐ฅ๐ ๐ก
๐
๐=1
[๐ฟ๐๐ค]
๐๐
๐ฟ๐๐ค = ๐ผ โ ๐ทโ1๐ด = ๐ทโ1๐ฟ
๐๐ฅ๐๐๐ก
= โ๐ถ ๐ฟ๐๐๐๐ โ ๐๐๐ ๐ฅ๐
๐
๐=1
[๐ฟ]๐๐
๐ฟ = ๐ท โ ๐ด
๐ฟ๐ ๐ฆ๐ โก ๐ทโ1/2๐ฟ๐ทโ1/2 = ๐ผ โ ๐ทโ1/2๐ฟ๐ทโ1/2
L : Laplaciano combinatorio o no-normalizado Lrw: Laplaciano random-walk Lsym: Laplaciano normalizado o simetrico
Entonces, vimos dos tipos de procesos difusivos:
Priorizaciรณn de nuevas asociaciones gen/enfermedad
Kolher et al The American Journal of Human Genetics 2008
Algoritmos para propagar sentido de pertenecia al conjunto de interรฉs: Random Walk with Restart (Kholer 2009) Net-Rank (Chen 2009) Net-Propagation (Vanunu 2010) Functional Flow (Navieba 2005)
Lo podemos pensar tambiรฉn como un proceso de difusiรณn con fuentes
Difusiรณn en redes y aprendizaje semi-supervisado
Tengo informaciรณn parcial asociada a un subconjunto de nodos (etiquetas, o valores reales) y quiero utilizarla para inferir propiedades de los no-etiquetados Cada nodo va a propagar su etiqueta de manera iterativa hasta converger
Problema de clasificaciรณn: l nodos etiquetados con valor 1 (azul) o -1 (rojo) y N-l nodos con valor 0.
1
1
-1
-1
El problema de aprendizaje semi-supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con
I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red
Problema de priorizaciรณn: l nodos etiquetados con valor 1 y N-l nodos con valor 0.
1
1
0.8
1
2.3
2
Problema de regresiรณn: l nodos etiquetados con valores reales y N-l nodos con valor 0.
Difusiรณn en redes y aprendizaje semi-supervisado
Computo de matriz de adyacencia W Computo de matriz diagonal D: ๐ท๐๐ โ ๐ค๐๐๐
Inicializo ๐ (๐ก=0) โ ๐ฆ1, โฆ , ๐ฆ๐ , 0,0, โฆ , 0 Itero hasta convergencia
1. ๐ (๐ก+1) โ ๐ทโ1๐๐ (๐ก)
2. ๐ ๐(๐ก+1)
โ ๐๐
Etiqueta del nodo-i resulta ๐ ๐๐๐(๐ฆ ๐(โ))
Algoritmo 1 Label Propagation (Zhu 2002)
1
1
-1
-1
Sea el grafo G, nodos 1,2,โฆ,l etiquetados no trivialmente
segun ๐๐ = ๐ฆ1, โฆ , ๐ฆ๐ nodos l+1,โฆ,N etiquetados con valor 0 Queremos propagar la informaciรณn por la
red y estimar el vector de etiquetas
asintรณtico: ๐ = ๐ ๐ , ๐ ๐ข
Difusiรณn en redes y aprendizaje semi-supervisado
Algoritmo 2 Label Propagation
Computo de matriz de adyacencia W, se fija wii=0
Computo de matriz diagonal D: ๐ท๐๐ โ ๐ค๐๐๐
Elijo ฯต > 0 y ๐ผ โ 0,1
๐ โ๐ผ
1โ๐ผ(0,+โ)
Computo la matriz diagonal ๐ด๐๐ โ ๐ผ ๐ ๐ + ๐๐ท๐๐ + ๐ํ
Inicializo ๐ (๐ก=0) โ ๐ฆ1, โฆ , ๐ฆ๐ , 0,0, โฆ , 0 Itero hasta convergencia
๐ (๐ก+1) โ ๐ดโ1(๐๐๐ ๐ก + ๐ 0 )
Etiqueta del nodo-i resulta ๐ ๐๐๐(๐ฆ ๐(โ))
1
1
-1
-1
para nodo etiquetado
para nodo sin etiquetar
Diferencias con Algo 1 Se fija wii=0 Se permite ๐ ๐ โ ๐๐ Se considera un termino de regularizaciรณn ฯต
๐ผ ๐ :matriz diagonal con 1โs en los primeros l elementos y 0 el resto
Difusiรณn en redes y aprendizaje semi-supervisado
Computo de matriz de adyacencia W, se fija wii=0
Computo de matriz diagonal D: ๐ท๐๐ โ ๐ค๐๐๐
Computo Laplaciano simetrico
โ โ ๐ทโ1/2๐๐ทโ1/2
Inicializo ๐ (๐ก=0) โ ๐ฆ1, โฆ , ๐ฆ๐ , 0,0, โฆ , 0
Elijo ๐ผ โ [0,1)
Itero hasta convergencia
๐ (๐ก+1) โ ๐ผโ๐ (๐ก) + 1 โ ๐ผ ๐ 0
Etiqueta del nodo-i resulta ๐ ๐๐๐(๐ฆ ๐(โ))
Algoritmo 3 Label Propagation (Zhou 2004)
1
1
-1
-1
Difusiรณn con fuentes
Regularizaciรณn en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con
I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red
Sea ๐ = (๐ ๐ , ๐ ๐ข)
etiquetados
no-etiquetados
Consistencia con etiquetado inicial:
Consistencia con geometrรญa de los datos:
penalizamos apartamiento de etiquetado original
penalizamos cambios bruscos de etiquetado
Regularizaciรณn en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con
I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red
โ(๐ ) = ๐ฆ ๐ โ ๐ฆ๐2
๐
๐=1
+1
2 ๐ค๐๐
๐
๐,๐=1
๐ฆ ๐ โ ๐ฆ ๐2
penalizamos apartamiento de etiquetado original
penalizamos cambios bruscos de etiquetado
= ๐ ๐ โ ๐๐2+๐ ๐๐ฟ๐
Se trata de encontrar el etiquetado ๐ que minimice โ(๐ )
โ(๐ ) = ๐ ๐ โ ๐๐2+ ๐๐ ๐๐ฟ๐ + ฮผ๐ ๐ ๐
2
En la practica se suele agregar un tรฉrmino de regularizaciรณn para romper la simetrรญa entre etiquetas
Regularizaciรณn en grafos Se trata de encontrar el etiquetado ๐ que minimice โ(๐ )
โ(๐ ) = ๐ ๐ โ ๐๐2+ ๐๐ ๐๐ฟ๐ + ฮผ๐ ๐ ๐
2
1
2
๐โ(๐ )
๐ ๐ = ๐ ๐ โ ๐ + ฮผ ๐ฟ ๐ + ฮผ๐๐
๐ = ๐ผ ๐ matriz diagonal con 1โs en los primeros l
elementos y 0 el resto ๐๐ โ ๐๐
2
= ๐ + ฮผ ๐ฟ + ฮผ๐๐ผ ๐ โ S๐
โ ๐ = ๐ + ฮผ ๐ฟ + ฮผ๐๐ผ โ1S๐
Las etiquetas optimas pueden obtenerse invirtiendo una matriz
Esta matriz depende รบnicamente del Laplaciano de la red (no de las etiquetas)
La manera en que las etiquetas se propagan depende exclusivamente de la estructura del grafo
= 0
Regularizaciรณn en grafos Hay otras elecciones para la funciรณn a minimizar:
โโฒ(๐ ) = ๐ โ ๐๐2+๐
2 ๐ค๐๐
๐,๐
๐ฆ ๐
๐ท๐๐โ
๐ฆ ๐
๐ท๐๐
โ(๐ ) = ๐๐ โ ๐๐2+ ๐๐ ๐๐ฟ๐ + ฮผ๐ ๐ ๐
2
Zhou 2004
Dos diferencias entre โ (๐ )y โโฒ(๐ ): I. El primer tรฉrmino busca ajustar bien las etiquetas conocidas pero
ademรกs favorece etiquetas 0 para nodos no-etiquetados inicialmente
II. Las etiquetas estรกn normalizadas por la raiz cuadrada del grado cuando se computa similaridad entre vecinos.
๐ ๐ โ ๐๐2+ ๐ ๐ข
2
โโฒ(๐ ) = ๐ โ ๐๐2+ ๐(๐ทโ1/2๐ )๐๐ฟ(๐ทโ1/2๐ )
Se puede ver que
Vรญnculo entre regularizaciรณn y propagaciรณn de etiquetas
โ(๐ ) = ๐๐ โ ๐๐2+ ๐๐ ๐๐ฟ๐ + ฮผ๐ ๐ ๐
2
โ ๐ โ = ๐ + ฮผ ๐ฟ + ฮผ๐๐ผ โ1S๐
Metodo iterativo de Jacobi para invertir una matriz:
๐๐ฅ = ๐
๐ฅ๐(๐ก+1)
=1
๐๐๐๐ โ ๐๐๐๐ฅ๐
(๐ก)
๐โ ๐
para nodo etiquetado para nodo sin etiquetar
๐ฅ โก ๐ , ๐ โก ๐๐,๐ = ๐ + ฮผ ๐ฟ + ฮผ๐๐ผ En nuestro caso y la iteraciรณn de Jacobi resulta en
Algoritmo 2 de propagaciรณn de etiquetas (!)
1
1
Regularizaciรณn y propagaciรณn de etiquetas
1
2
๐โโฒ(๐ )
๐ ๐ = ๐ โ ๐๐ + ฮผ (๐ โ โ๐ )
โโฒ(๐ ) = ๐ โ ๐๐2+ ๐(๐ทโ1/2๐ )๐๐ฟ(๐ทโ1/2๐ )
โ ๐ โ = 1 + ฮผ ๐ผ โ ฮผ โโ1S๐
Algoritmo 3 de propagaciรณn de etiquetas (!)
๐ (๐ก+1) โ ๐ผโ๐ (๐ก) + (1 โ ๐ผ)๐ (0) con ๐ =๐ผ
1โ๐ผ
La iteracion de Jacobi para resolver ๐โโฒ(๐ )
๐ ๐ = 0
Conclusiones
โข Vimos ejemplos donde es posible establecer un link entre una metodologia de propagacion de etiquetas y un proceso de minimizacion de una cantidad que da cuenta de
โ el ajuste a la informacion inicial (parcial)
โ suavidad del campo de etiquetas sobre la geometria de los datos
Refs
โข Capitulo 11 de Semi-supervised learning, Chapelle et al, Label propagation and quadratic criterion.
top related