laplacianos y aprendizaje semisupervisado
TRANSCRIPT
Laplacianos y aprendizaje semisupervisado
DifusiΓ³n en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)
cte de difusiΓ³n
ππ₯πππ‘
= πΆ π΄ππ (π₯πβπ₯π)
π
π=1
= πΆ π΄πππ₯π
π
π=1
β πΆ π΄πππ₯π
π
π=1
= πΆ π΄πππ₯π
π
π=1
β πΆπππ₯π
ππ
= πΆ π΄πππ₯π
π
π=1
β πΆπΏπππππ₯π
ππ₯πππ‘
= βπΆ πΏππππ β π΄ππ π₯π
π
π=1
[πΏ]ππ
ππ
ππ‘= βπΆ. πΏ π ππ
ππ‘= πΆπ»2π
Ec de difusion de calor
DifusiΓ³n en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)
cte de difusiΓ³n
ππ₯πππ‘
= βπΆ πΏππππ β π΄ππ π₯π
π
π=1
[πΏ]ππ
πΏ = π· β π΄
Propiedades
L es simΓ©trica L es semidefinida-positiva (i.e. autovalores ππ β₯ 0, π = 1β¦π) Suma por columnas y por filas de L es cero Siempre π = 0 es autovalor de L con autovector v0=(1,1,β¦,1), ya
que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible)
πΏ = π· β π΄
Propiedades
L es simΓ©trica L es semidefinida-positiva (i.e. autovalores ππ β₯ 0 , π = 1β¦π) Suma por columnas y por filas de L es cero Siempre π = 0 es autovalor de L con autovector v0=(1,1,β¦,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaΓ±os n1, n2,β¦, np
πΏ = π· β π΄
L1
L2
Notar que ahora habrΓ‘ p autovectores de L asociados a π = 0 de la forma
(1,β¦ , 1π1
, 0,0, . . . , 0)
(0,β¦ , 0 ,π1
1, β¦ , 1π2
, 0,0, . . . , 0)
(0,β¦ , 0π1
, 0, β¦ , 0π2
, 1, β¦ , 1π3
, 0,0, . . . , 0)
Laplaciano combinatorio
Propiedades
L es simΓ©trica L es semidefinida-positiva (i.e. autovalores ππ β₯ 0, π = 1β¦π) Suma por columnas y por filas de L es cero Siempre π = 0
es autovalor de L con autovector v0=(1,1,β¦,1), ya que L v0 = 0 v0 = 0
L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaΓ±os n1, n2,β¦, np, existen p autovectores de L
asociados a π = 0
πΏ = π· β π΄
Corolario: - el segundo autovalor de L es π2 β 0 sii el grafo posee una ΓΊnica componente - π2 se denomina conectividad algebraica de la red
Laplaciano combinatorio
Autovectores de L
autovector i-esimo
π³ππ = ππππ
ππ define un campo escalar sobre el grafo
Notar: autovectores de bajo Γndice estΓ‘n asociados a campos mΓ‘s suaves sobre el grafo
Caminatas al azarβ¦y difusiΓ³n
ππ π‘ + 1 = 1
πππππ ππ(π‘)
π
π=1
Esta misma ecuaciΓ³n aplica a procesos de tipo difusivos en una red, donde en cada paso temporal toda la cantidad de material que se encuentra en el nodo-i es repartida y enviada a sus vecinos
π₯π π‘ + 1 = 1
πππππ π₯π(π‘)
π
π=1
pi(t) probabilidad de encontrar a Juan en el nodo-i, en el paso temporal t
xj(t) cantidad de material que a tiempo t se encuentra en el nodo-j
el recurso xj se reparte extensivamente
DifusiΓ³n random-walk en redes
en cada nodo hay una cantidad xi de material
A cada paso, la cantidad xi de cada nodo se altera
π₯π π‘ + 1 = 1
πππππ π₯π(π‘)
π
π=1
βπ₯π = π₯π π‘ + 1 β π₯π π‘ = 1
πππππ π₯π π‘
π
π=1
β π₯π π‘
= 1
πππππ π₯π π‘
π
π=1
β πΏππ π₯π π‘ πΏππ = 1 π ππ π = π
= β πΏππ β1
πππππ
[πΏππ€]ππ
π
π=1
π₯π π‘
Laplaciano random-walk
βπ = βπΏππ€π ππ
ππ‘= βπΏππ€π
ππ
ππ‘= π»2π
Laplacianos
ππ₯πππ‘
= β πΏππ β1
πππππ π₯π π‘
π
π=1
[πΏππ€]
ππ
πΏππ€ = πΌ β π·β1π΄ = π·β1πΏ
ππ₯πππ‘
= βπΆ πΏππππ β πππ π₯π
π
π=1
[πΏ]ππ
πΏ = π· β π΄
πΏπ π¦π β‘ π·β1/2πΏπ·β1/2 = πΌ β π·β1/2πΏπ·β1/2
L : Laplaciano combinatorio o no-normalizado Lrw: Laplaciano random-walk Lsym: Laplaciano normalizado o simetrico
Entonces, vimos dos tipos de procesos difusivos:
PriorizaciΓ³n de nuevas asociaciones gen/enfermedad
Kolher et al The American Journal of Human Genetics 2008
Algoritmos para propagar sentido de pertenecia al conjunto de interΓ©s: Random Walk with Restart (Kholer 2009) Net-Rank (Chen 2009) Net-Propagation (Vanunu 2010) Functional Flow (Navieba 2005)
Lo podemos pensar tambiΓ©n como un proceso de difusiΓ³n con fuentes
DifusiΓ³n en redes y aprendizaje semi-supervisado
Tengo informaciΓ³n parcial asociada a un subconjunto de nodos (etiquetas, o valores reales) y quiero utilizarla para inferir propiedades de los no-etiquetados Cada nodo va a propagar su etiqueta de manera iterativa hasta converger
Problema de clasificaciΓ³n: l nodos etiquetados con valor 1 (azul) o -1 (rojo) y N-l nodos con valor 0.
1
1
-1
-1
El problema de aprendizaje semi-supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con
I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red
Problema de priorizaciΓ³n: l nodos etiquetados con valor 1 y N-l nodos con valor 0.
1
1
0.8
1
2.3
2
Problema de regresiΓ³n: l nodos etiquetados con valores reales y N-l nodos con valor 0.
DifusiΓ³n en redes y aprendizaje semi-supervisado
Computo de matriz de adyacencia W Computo de matriz diagonal D: π·ππ β π€πππ
Inicializo π (π‘=0) β π¦1, β¦ , π¦π , 0,0, β¦ , 0 Itero hasta convergencia
1. π (π‘+1) β π·β1ππ (π‘)
2. π π(π‘+1)
β ππ
Etiqueta del nodo-i resulta π πππ(π¦ π(β))
Algoritmo 1 Label Propagation (Zhu 2002)
1
1
-1
-1
Sea el grafo G, nodos 1,2,β¦,l etiquetados no trivialmente
segun ππ = π¦1, β¦ , π¦π nodos l+1,β¦,N etiquetados con valor 0 Queremos propagar la informaciΓ³n por la
red y estimar el vector de etiquetas
asintΓ³tico: π = π π , π π’
DifusiΓ³n en redes y aprendizaje semi-supervisado
Algoritmo 2 Label Propagation
Computo de matriz de adyacencia W, se fija wii=0
Computo de matriz diagonal D: π·ππ β π€πππ
Elijo Ο΅ > 0 y πΌ β 0,1
π βπΌ
1βπΌ(0,+β)
Computo la matriz diagonal π΄ππ β πΌ π π + ππ·ππ + πν
Inicializo π (π‘=0) β π¦1, β¦ , π¦π , 0,0, β¦ , 0 Itero hasta convergencia
π (π‘+1) β π΄β1(πππ π‘ + π 0 )
Etiqueta del nodo-i resulta π πππ(π¦ π(β))
1
1
-1
-1
para nodo etiquetado
para nodo sin etiquetar
Diferencias con Algo 1 Se fija wii=0 Se permite π π β ππ Se considera un termino de regularizaciΓ³n Ο΅
πΌ π :matriz diagonal con 1βs en los primeros l elementos y 0 el resto
DifusiΓ³n en redes y aprendizaje semi-supervisado
Computo de matriz de adyacencia W, se fija wii=0
Computo de matriz diagonal D: π·ππ β π€πππ
Computo Laplaciano simetrico
β β π·β1/2ππ·β1/2
Inicializo π (π‘=0) β π¦1, β¦ , π¦π , 0,0, β¦ , 0
Elijo πΌ β [0,1)
Itero hasta convergencia
π (π‘+1) β πΌβπ (π‘) + 1 β πΌ π 0
Etiqueta del nodo-i resulta π πππ(π¦ π(β))
Algoritmo 3 Label Propagation (Zhou 2004)
1
1
-1
-1
DifusiΓ³n con fuentes
RegularizaciΓ³n en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con
I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red
Sea π = (π π , π π’)
etiquetados
no-etiquetados
Consistencia con etiquetado inicial:
Consistencia con geometrΓa de los datos:
penalizamos apartamiento de etiquetado original
penalizamos cambios bruscos de etiquetado
RegularizaciΓ³n en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con
I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red
β(π ) = π¦ π β π¦π2
π
π=1
+1
2 π€ππ
π
π,π=1
π¦ π β π¦ π2
penalizamos apartamiento de etiquetado original
penalizamos cambios bruscos de etiquetado
= π π β ππ2+π ππΏπ
Se trata de encontrar el etiquetado π que minimice β(π )
β(π ) = π π β ππ2+ ππ ππΏπ + ΞΌπ π π
2
En la practica se suele agregar un tΓ©rmino de regularizaciΓ³n para romper la simetrΓa entre etiquetas
RegularizaciΓ³n en grafos Se trata de encontrar el etiquetado π que minimice β(π )
β(π ) = π π β ππ2+ ππ ππΏπ + ΞΌπ π π
2
1
2
πβ(π )
π π = π π β π + ΞΌ πΏ π + ΞΌππ
π = πΌ π matriz diagonal con 1βs en los primeros l
elementos y 0 el resto ππ β ππ
2
= π + ΞΌ πΏ + ΞΌππΌ π β Sπ
β π = π + ΞΌ πΏ + ΞΌππΌ β1Sπ
Las etiquetas optimas pueden obtenerse invirtiendo una matriz
Esta matriz depende ΓΊnicamente del Laplaciano de la red (no de las etiquetas)
La manera en que las etiquetas se propagan depende exclusivamente de la estructura del grafo
= 0
RegularizaciΓ³n en grafos Hay otras elecciones para la funciΓ³n a minimizar:
ββ²(π ) = π β ππ2+π
2 π€ππ
π,π
π¦ π
π·ππβ
π¦ π
π·ππ
β(π ) = ππ β ππ2+ ππ ππΏπ + ΞΌπ π π
2
Zhou 2004
Dos diferencias entre β (π )y ββ²(π ): I. El primer tΓ©rmino busca ajustar bien las etiquetas conocidas pero
ademΓ‘s favorece etiquetas 0 para nodos no-etiquetados inicialmente
II. Las etiquetas estΓ‘n normalizadas por la raiz cuadrada del grado cuando se computa similaridad entre vecinos.
π π β ππ2+ π π’
2
ββ²(π ) = π β ππ2+ π(π·β1/2π )ππΏ(π·β1/2π )
Se puede ver que
VΓnculo entre regularizaciΓ³n y propagaciΓ³n de etiquetas
β(π ) = ππ β ππ2+ ππ ππΏπ + ΞΌπ π π
2
β π β = π + ΞΌ πΏ + ΞΌππΌ β1Sπ
Metodo iterativo de Jacobi para invertir una matriz:
ππ₯ = π
π₯π(π‘+1)
=1
ππππ β ππππ₯π
(π‘)
πβ π
para nodo etiquetado para nodo sin etiquetar
π₯ β‘ π , π β‘ ππ,π = π + ΞΌ πΏ + ΞΌππΌ En nuestro caso y la iteraciΓ³n de Jacobi resulta en
Algoritmo 2 de propagaciΓ³n de etiquetas (!)
1
1
RegularizaciΓ³n y propagaciΓ³n de etiquetas
1
2
πββ²(π )
π π = π β ππ + ΞΌ (π β βπ )
ββ²(π ) = π β ππ2+ π(π·β1/2π )ππΏ(π·β1/2π )
β π β = 1 + ΞΌ πΌ β ΞΌ ββ1Sπ
Algoritmo 3 de propagaciΓ³n de etiquetas (!)
π (π‘+1) β πΌβπ (π‘) + (1 β πΌ)π (0) con π =πΌ
1βπΌ
La iteracion de Jacobi para resolver πββ²(π )
π π = 0
Conclusiones
β’ Vimos ejemplos donde es posible establecer un link entre una metodologia de propagacion de etiquetas y un proceso de minimizacion de una cantidad que da cuenta de
β el ajuste a la informacion inicial (parcial)
β suavidad del campo de etiquetas sobre la geometria de los datos
Refs
β’ Capitulo 11 de Semi-supervised learning, Chapelle et al, Label propagation and quadratic criterion.