laplacianos y aprendizaje semisupervisado

Post on 13-Jul-2022

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Laplacianos y aprendizaje semisupervisado

Difusiรณn en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)

cte de difusiรณn

๐‘‘๐‘ฅ๐‘–๐‘‘๐‘ก

= ๐ถ ๐ด๐‘–๐‘— (๐‘ฅ๐‘—โˆ’๐‘ฅ๐‘–)

๐‘

๐‘—=1

= ๐ถ ๐ด๐‘–๐‘—๐‘ฅ๐‘—

๐‘

๐‘—=1

โˆ’ ๐ถ ๐ด๐‘–๐‘—๐‘ฅ๐‘–

๐‘

๐‘—=1

= ๐ถ ๐ด๐‘–๐‘—๐‘ฅ๐‘—

๐‘

๐‘—=1

โˆ’ ๐ถ๐‘˜๐‘–๐‘ฅ๐‘–

๐‘˜๐‘–

= ๐ถ ๐ด๐‘–๐‘—๐‘ฅ๐‘—

๐‘

๐‘—=1

โˆ’ ๐ถ๐›ฟ๐‘–๐‘—๐‘˜๐‘—๐‘ฅ๐‘—

๐‘‘๐‘ฅ๐‘–๐‘‘๐‘ก

= โˆ’๐ถ ๐›ฟ๐‘–๐‘—๐‘˜๐‘— โˆ’ ๐ด๐‘–๐‘— ๐‘ฅ๐‘—

๐‘

๐‘—=1

[๐ฟ]๐‘–๐‘—

๐‘‘๐’™

๐‘‘๐‘ก= โˆ’๐ถ. ๐ฟ ๐’™ ๐‘‘๐’™

๐‘‘๐‘ก= ๐ถ๐›ป2๐’™

Ec de difusion de calor

Difusiรณn en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)

cte de difusiรณn

๐‘‘๐‘ฅ๐‘–๐‘‘๐‘ก

= โˆ’๐ถ ๐›ฟ๐‘–๐‘—๐‘˜๐‘— โˆ’ ๐ด๐‘–๐‘— ๐‘ฅ๐‘—

๐‘

๐‘—=1

[๐ฟ]๐‘–๐‘—

๐ฟ = ๐ท โˆ’ ๐ด

Propiedades

L es simรฉtrica L es semidefinida-positiva (i.e. autovalores ๐œ†๐‘– โ‰ฅ 0, ๐‘– = 1โ€ฆ๐‘) Suma por columnas y por filas de L es cero Siempre ๐œ† = 0 es autovalor de L con autovector v0=(1,1,โ€ฆ,1), ya

que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible)

๐ฟ = ๐ท โˆ’ ๐ด

Propiedades

L es simรฉtrica L es semidefinida-positiva (i.e. autovalores ๐œ†๐‘– โ‰ฅ 0 , ๐‘– = 1โ€ฆ๐‘) Suma por columnas y por filas de L es cero Siempre ๐œ† = 0 es autovalor de L con autovector v0=(1,1,โ€ฆ,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaรฑos n1, n2,โ€ฆ, np

๐ฟ = ๐ท โˆ’ ๐ด

L1

L2

Notar que ahora habrรก p autovectores de L asociados a ๐œ† = 0 de la forma

(1,โ€ฆ , 1๐‘›1

, 0,0, . . . , 0)

(0,โ€ฆ , 0 ,๐‘›1

1, โ€ฆ , 1๐‘›2

, 0,0, . . . , 0)

(0,โ€ฆ , 0๐‘›1

, 0, โ€ฆ , 0๐‘›2

, 1, โ€ฆ , 1๐‘›3

, 0,0, . . . , 0)

Laplaciano combinatorio

Propiedades

L es simรฉtrica L es semidefinida-positiva (i.e. autovalores ๐œ†๐‘– โ‰ฅ 0, ๐‘– = 1โ€ฆ๐‘) Suma por columnas y por filas de L es cero Siempre ๐œ† = 0

es autovalor de L con autovector v0=(1,1,โ€ฆ,1), ya que L v0 = 0 v0 = 0

L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaรฑos n1, n2,โ€ฆ, np, existen p autovectores de L

asociados a ๐œ† = 0

๐ฟ = ๐ท โˆ’ ๐ด

Corolario: - el segundo autovalor de L es ๐œ†2 โ‰  0 sii el grafo posee una รบnica componente - ๐œ†2 se denomina conectividad algebraica de la red

Laplaciano combinatorio

Autovectores de L

autovector i-esimo

๐‘ณ๐“๐‘– = ๐œ†๐‘–๐“๐‘–

๐“๐‘– define un campo escalar sobre el grafo

Notar: autovectores de bajo รญndice estรกn asociados a campos mรกs suaves sobre el grafo

Caminatas al azarโ€ฆy difusiรณn

๐‘๐‘– ๐‘ก + 1 = 1

๐‘˜๐‘—๐‘Ž๐‘–๐‘— ๐‘๐‘—(๐‘ก)

๐‘

๐‘—=1

Esta misma ecuaciรณn aplica a procesos de tipo difusivos en una red, donde en cada paso temporal toda la cantidad de material que se encuentra en el nodo-i es repartida y enviada a sus vecinos

๐‘ฅ๐‘– ๐‘ก + 1 = 1

๐‘˜๐‘—๐‘Ž๐‘–๐‘— ๐‘ฅ๐‘—(๐‘ก)

๐‘

๐‘—=1

pi(t) probabilidad de encontrar a Juan en el nodo-i, en el paso temporal t

xj(t) cantidad de material que a tiempo t se encuentra en el nodo-j

el recurso xj se reparte extensivamente

Difusiรณn random-walk en redes

en cada nodo hay una cantidad xi de material

A cada paso, la cantidad xi de cada nodo se altera

๐‘ฅ๐‘– ๐‘ก + 1 = 1

๐‘˜๐‘—๐‘Ž๐‘–๐‘— ๐‘ฅ๐‘—(๐‘ก)

๐‘

๐‘—=1

โˆ†๐‘ฅ๐‘– = ๐‘ฅ๐‘– ๐‘ก + 1 โˆ’ ๐‘ฅ๐‘– ๐‘ก = 1

๐‘˜๐‘—๐‘Ž๐‘–๐‘— ๐‘ฅ๐‘— ๐‘ก

๐‘

๐‘—=1

โˆ’ ๐‘ฅ๐‘– ๐‘ก

= 1

๐‘˜๐‘—๐‘Ž๐‘–๐‘— ๐‘ฅ๐‘— ๐‘ก

๐‘

๐‘—=1

โˆ’ ๐›ฟ๐‘–๐‘— ๐‘ฅ๐‘— ๐‘ก ๐›ฟ๐‘–๐‘— = 1 ๐‘ ๐‘–๐‘– ๐‘– = ๐‘—

= โˆ’ ๐›ฟ๐‘–๐‘— โˆ’1

๐‘˜๐‘—๐‘Ž๐‘–๐‘—

[๐ฟ๐‘Ÿ๐‘ค]๐‘–๐‘—

๐‘

๐‘—=1

๐‘ฅ๐‘— ๐‘ก

Laplaciano random-walk

โˆ†๐’™ = โˆ’๐ฟ๐‘Ÿ๐‘ค๐’™ ๐‘‘๐’™

๐‘‘๐‘ก= โˆ’๐ฟ๐‘Ÿ๐‘ค๐’™

๐‘‘๐’™

๐‘‘๐‘ก= ๐›ป2๐’™

Laplacianos

๐‘‘๐‘ฅ๐‘–๐‘‘๐‘ก

= โˆ’ ๐›ฟ๐‘–๐‘— โˆ’1

๐‘˜๐‘—๐‘Ž๐‘–๐‘— ๐‘ฅ๐‘— ๐‘ก

๐‘

๐‘—=1

[๐ฟ๐‘Ÿ๐‘ค]

๐‘–๐‘—

๐ฟ๐‘Ÿ๐‘ค = ๐ผ โˆ’ ๐ทโˆ’1๐ด = ๐ทโˆ’1๐ฟ

๐‘‘๐‘ฅ๐‘–๐‘‘๐‘ก

= โˆ’๐ถ ๐›ฟ๐‘–๐‘—๐‘˜๐‘— โˆ’ ๐‘Ž๐‘–๐‘— ๐‘ฅ๐‘—

๐‘

๐‘—=1

[๐ฟ]๐‘–๐‘—

๐ฟ = ๐ท โˆ’ ๐ด

๐ฟ๐‘ ๐‘ฆ๐‘š โ‰ก ๐ทโˆ’1/2๐ฟ๐ทโˆ’1/2 = ๐ผ โˆ’ ๐ทโˆ’1/2๐ฟ๐ทโˆ’1/2

L : Laplaciano combinatorio o no-normalizado Lrw: Laplaciano random-walk Lsym: Laplaciano normalizado o simetrico

Entonces, vimos dos tipos de procesos difusivos:

Priorizaciรณn de nuevas asociaciones gen/enfermedad

Kolher et al The American Journal of Human Genetics 2008

Algoritmos para propagar sentido de pertenecia al conjunto de interรฉs: Random Walk with Restart (Kholer 2009) Net-Rank (Chen 2009) Net-Propagation (Vanunu 2010) Functional Flow (Navieba 2005)

Lo podemos pensar tambiรฉn como un proceso de difusiรณn con fuentes

Difusiรณn en redes y aprendizaje semi-supervisado

Tengo informaciรณn parcial asociada a un subconjunto de nodos (etiquetas, o valores reales) y quiero utilizarla para inferir propiedades de los no-etiquetados Cada nodo va a propagar su etiqueta de manera iterativa hasta converger

Problema de clasificaciรณn: l nodos etiquetados con valor 1 (azul) o -1 (rojo) y N-l nodos con valor 0.

1

1

-1

-1

El problema de aprendizaje semi-supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con

I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red

Problema de priorizaciรณn: l nodos etiquetados con valor 1 y N-l nodos con valor 0.

1

1

0.8

1

2.3

2

Problema de regresiรณn: l nodos etiquetados con valores reales y N-l nodos con valor 0.

Difusiรณn en redes y aprendizaje semi-supervisado

Computo de matriz de adyacencia W Computo de matriz diagonal D: ๐ท๐‘–๐‘– โ† ๐‘ค๐‘–๐‘—๐‘—

Inicializo ๐‘Œ (๐‘ก=0) โ† ๐‘ฆ1, โ€ฆ , ๐‘ฆ๐‘™ , 0,0, โ€ฆ , 0 Itero hasta convergencia

1. ๐‘Œ (๐‘ก+1) โ† ๐ทโˆ’1๐‘Š๐‘Œ (๐‘ก)

2. ๐‘Œ ๐‘™(๐‘ก+1)

โ† ๐‘Œ๐‘™

Etiqueta del nodo-i resulta ๐‘ ๐‘–๐‘”๐‘›(๐‘ฆ ๐‘–(โˆž))

Algoritmo 1 Label Propagation (Zhu 2002)

1

1

-1

-1

Sea el grafo G, nodos 1,2,โ€ฆ,l etiquetados no trivialmente

segun ๐‘Œ๐‘™ = ๐‘ฆ1, โ€ฆ , ๐‘ฆ๐‘™ nodos l+1,โ€ฆ,N etiquetados con valor 0 Queremos propagar la informaciรณn por la

red y estimar el vector de etiquetas

asintรณtico: ๐‘Œ = ๐‘Œ ๐‘™ , ๐‘Œ ๐‘ข

Difusiรณn en redes y aprendizaje semi-supervisado

Algoritmo 2 Label Propagation

Computo de matriz de adyacencia W, se fija wii=0

Computo de matriz diagonal D: ๐ท๐‘–๐‘– โ† ๐‘ค๐‘–๐‘—๐‘—

Elijo ฯต > 0 y ๐›ผ โˆˆ 0,1

๐œ‡ โ†๐›ผ

1โˆ’๐›ผ(0,+โˆž)

Computo la matriz diagonal ๐ด๐‘–๐‘– โ† ๐ผ ๐‘™ ๐‘– + ๐œ‡๐ท๐‘–๐‘– + ๐œ‡ํœ€

Inicializo ๐‘Œ (๐‘ก=0) โ† ๐‘ฆ1, โ€ฆ , ๐‘ฆ๐‘™ , 0,0, โ€ฆ , 0 Itero hasta convergencia

๐‘Œ (๐‘ก+1) โ† ๐ดโˆ’1(๐œ‡๐‘Š๐‘Œ ๐‘ก + ๐‘Œ 0 )

Etiqueta del nodo-i resulta ๐‘ ๐‘–๐‘”๐‘›(๐‘ฆ ๐‘–(โˆž))

1

1

-1

-1

para nodo etiquetado

para nodo sin etiquetar

Diferencias con Algo 1 Se fija wii=0 Se permite ๐‘Œ ๐‘™ โ‰  ๐‘Œ๐‘™ Se considera un termino de regularizaciรณn ฯต

๐ผ ๐‘™ :matriz diagonal con 1โ€™s en los primeros l elementos y 0 el resto

Difusiรณn en redes y aprendizaje semi-supervisado

Computo de matriz de adyacencia W, se fija wii=0

Computo de matriz diagonal D: ๐ท๐‘–๐‘– โ† ๐‘ค๐‘–๐‘—๐‘—

Computo Laplaciano simetrico

โ„’ โ† ๐ทโˆ’1/2๐‘Š๐ทโˆ’1/2

Inicializo ๐‘Œ (๐‘ก=0) โ† ๐‘ฆ1, โ€ฆ , ๐‘ฆ๐‘™ , 0,0, โ€ฆ , 0

Elijo ๐›ผ โˆˆ [0,1)

Itero hasta convergencia

๐‘Œ (๐‘ก+1) โ† ๐›ผโ„’๐‘Œ (๐‘ก) + 1 โˆ’ ๐›ผ ๐‘Œ 0

Etiqueta del nodo-i resulta ๐‘ ๐‘–๐‘”๐‘›(๐‘ฆ ๐‘–(โˆž))

Algoritmo 3 Label Propagation (Zhou 2004)

1

1

-1

-1

Difusiรณn con fuentes

Regularizaciรณn en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con

I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red

Sea ๐‘Œ = (๐‘Œ ๐‘™ , ๐‘Œ ๐‘ข)

etiquetados

no-etiquetados

Consistencia con etiquetado inicial:

Consistencia con geometrรญa de los datos:

penalizamos apartamiento de etiquetado original

penalizamos cambios bruscos de etiquetado

Regularizaciรณn en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con

I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red

โ„‹(๐‘Œ ) = ๐‘ฆ ๐‘– โˆ’ ๐‘ฆ๐‘–2

๐‘™

๐‘–=1

+1

2 ๐‘ค๐‘–๐‘—

๐‘

๐‘–,๐‘—=1

๐‘ฆ ๐‘– โˆ’ ๐‘ฆ ๐‘—2

penalizamos apartamiento de etiquetado original

penalizamos cambios bruscos de etiquetado

= ๐‘Œ ๐‘™ โˆ’ ๐‘Œ๐‘™2+๐‘Œ ๐‘‡๐ฟ๐‘Œ

Se trata de encontrar el etiquetado ๐‘Œ que minimice โ„‹(๐‘Œ )

โ„‹(๐‘Œ ) = ๐‘Œ ๐‘™ โˆ’ ๐‘Œ๐‘™2+ ๐œ‡๐‘Œ ๐‘‡๐ฟ๐‘Œ + ฮผ๐œ– ๐‘Œ ๐‘™

2

En la practica se suele agregar un tรฉrmino de regularizaciรณn para romper la simetrรญa entre etiquetas

Regularizaciรณn en grafos Se trata de encontrar el etiquetado ๐‘Œ que minimice โ„‹(๐‘Œ )

โ„‹(๐‘Œ ) = ๐‘Œ ๐‘™ โˆ’ ๐‘Œ๐‘™2+ ๐œ‡๐‘Œ ๐‘‡๐ฟ๐‘Œ + ฮผ๐œ– ๐‘Œ ๐‘™

2

1

2

๐œ•โ„‹(๐‘Œ )

๐œ• ๐‘Œ = ๐‘† ๐‘Œ โˆ’ ๐‘Œ + ฮผ ๐ฟ ๐‘Œ + ฮผ๐œ–๐‘Œ

๐‘† = ๐ผ ๐‘™ matriz diagonal con 1โ€™s en los primeros l

elementos y 0 el resto ๐‘†๐‘Œ โˆ’ ๐‘†๐‘Œ

2

= ๐‘† + ฮผ ๐ฟ + ฮผ๐œ–๐ผ ๐‘Œ โˆ’ S๐‘Œ

โ‡’ ๐‘Œ = ๐‘† + ฮผ ๐ฟ + ฮผ๐œ–๐ผ โˆ’1S๐‘Œ

Las etiquetas optimas pueden obtenerse invirtiendo una matriz

Esta matriz depende รบnicamente del Laplaciano de la red (no de las etiquetas)

La manera en que las etiquetas se propagan depende exclusivamente de la estructura del grafo

= 0

Regularizaciรณn en grafos Hay otras elecciones para la funciรณn a minimizar:

โ„‹โ€ฒ(๐‘Œ ) = ๐‘Œ โˆ’ ๐‘†๐‘Œ2+๐œ‡

2 ๐‘ค๐‘–๐‘—

๐‘–,๐‘—

๐‘ฆ ๐‘–

๐ท๐‘–๐‘–โˆ’

๐‘ฆ ๐‘—

๐ท๐‘—๐‘—

โ„‹(๐‘Œ ) = ๐‘†๐‘Œ โˆ’ ๐‘†๐‘Œ2+ ๐œ‡๐‘Œ ๐‘‡๐ฟ๐‘Œ + ฮผ๐œ– ๐‘Œ ๐‘™

2

Zhou 2004

Dos diferencias entre โ„‹ (๐‘Œ )y โ„‹โ€ฒ(๐‘Œ ): I. El primer tรฉrmino busca ajustar bien las etiquetas conocidas pero

ademรกs favorece etiquetas 0 para nodos no-etiquetados inicialmente

II. Las etiquetas estรกn normalizadas por la raiz cuadrada del grado cuando se computa similaridad entre vecinos.

๐‘Œ ๐‘™ โˆ’ ๐‘Œ๐‘™2+ ๐‘Œ ๐‘ข

2

โ„‹โ€ฒ(๐‘Œ ) = ๐‘Œ โˆ’ ๐‘†๐‘Œ2+ ๐œ‡(๐ทโˆ’1/2๐‘Œ )๐‘‡๐ฟ(๐ทโˆ’1/2๐‘Œ )

Se puede ver que

Vรญnculo entre regularizaciรณn y propagaciรณn de etiquetas

โ„‹(๐‘Œ ) = ๐‘†๐‘Œ โˆ’ ๐‘†๐‘Œ2+ ๐œ‡๐‘Œ ๐‘‡๐ฟ๐‘Œ + ฮผ๐œ– ๐‘Œ ๐‘™

2

โ‡’ ๐‘Œ โˆ— = ๐‘† + ฮผ ๐ฟ + ฮผ๐œ–๐ผ โˆ’1S๐‘Œ

Metodo iterativo de Jacobi para invertir una matriz:

๐‘€๐‘ฅ = ๐‘

๐‘ฅ๐‘–(๐‘ก+1)

=1

๐‘€๐‘–๐‘–๐‘ โˆ’ ๐‘€๐‘–๐‘—๐‘ฅ๐‘—

(๐‘ก)

๐‘—โ‰ ๐‘–

para nodo etiquetado para nodo sin etiquetar

๐‘ฅ โ‰ก ๐‘Œ , ๐‘ โ‰ก ๐‘†๐‘Œ,๐‘€ = ๐‘† + ฮผ ๐ฟ + ฮผ๐œ–๐ผ En nuestro caso y la iteraciรณn de Jacobi resulta en

Algoritmo 2 de propagaciรณn de etiquetas (!)

1

1

Regularizaciรณn y propagaciรณn de etiquetas

1

2

๐œ•โ„‹โ€ฒ(๐‘Œ )

๐œ• ๐‘Œ = ๐‘Œ โˆ’ ๐‘†๐‘Œ + ฮผ (๐‘Œ โˆ’ โ„’๐‘Œ )

โ„‹โ€ฒ(๐‘Œ ) = ๐‘Œ โˆ’ ๐‘†๐‘Œ2+ ๐œ‡(๐ทโˆ’1/2๐‘Œ )๐‘‡๐ฟ(๐ทโˆ’1/2๐‘Œ )

โ‡’ ๐‘Œ โˆ— = 1 + ฮผ ๐ผ โˆ’ ฮผ โ„’โˆ’1S๐‘Œ

Algoritmo 3 de propagaciรณn de etiquetas (!)

๐‘Œ (๐‘ก+1) โ† ๐›ผโ„’๐‘Œ (๐‘ก) + (1 โˆ’ ๐›ผ)๐‘Œ (0) con ๐œ‡ =๐›ผ

1โˆ’๐›ผ

La iteracion de Jacobi para resolver ๐œ•โ„‹โ€ฒ(๐‘Œ )

๐œ• ๐‘Œ = 0

Conclusiones

โ€ข Vimos ejemplos donde es posible establecer un link entre una metodologia de propagacion de etiquetas y un proceso de minimizacion de una cantidad que da cuenta de

โ€“ el ajuste a la informacion inicial (parcial)

โ€“ suavidad del campo de etiquetas sobre la geometria de los datos

Refs

โ€ข Capitulo 11 de Semi-supervised learning, Chapelle et al, Label propagation and quadratic criterion.

top related