laplacianos y aprendizaje semisupervisado

23
Laplacianos y aprendizaje semisupervisado

Upload: others

Post on 13-Jul-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Laplacianos y aprendizaje semisupervisado

Laplacianos y aprendizaje semisupervisado

Page 2: Laplacianos y aprendizaje semisupervisado

DifusiΓ³n en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)

cte de difusiΓ³n

𝑑π‘₯𝑖𝑑𝑑

= 𝐢 𝐴𝑖𝑗 (π‘₯π‘—βˆ’π‘₯𝑖)

𝑁

𝑗=1

= 𝐢 𝐴𝑖𝑗π‘₯𝑗

𝑁

𝑗=1

βˆ’ 𝐢 𝐴𝑖𝑗π‘₯𝑖

𝑁

𝑗=1

= 𝐢 𝐴𝑖𝑗π‘₯𝑗

𝑁

𝑗=1

βˆ’ πΆπ‘˜π‘–π‘₯𝑖

π‘˜π‘–

= 𝐢 𝐴𝑖𝑗π‘₯𝑗

𝑁

𝑗=1

βˆ’ πΆπ›Ώπ‘–π‘—π‘˜π‘—π‘₯𝑗

𝑑π‘₯𝑖𝑑𝑑

= βˆ’πΆ π›Ώπ‘–π‘—π‘˜π‘— βˆ’ 𝐴𝑖𝑗 π‘₯𝑗

𝑁

𝑗=1

[𝐿]𝑖𝑗

𝑑𝒙

𝑑𝑑= βˆ’πΆ. 𝐿 𝒙 𝑑𝒙

𝑑𝑑= 𝐢𝛻2𝒙

Ec de difusion de calor

Page 3: Laplacianos y aprendizaje semisupervisado

DifusiΓ³n en redes Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi)

cte de difusiΓ³n

𝑑π‘₯𝑖𝑑𝑑

= βˆ’πΆ π›Ώπ‘–π‘—π‘˜π‘— βˆ’ 𝐴𝑖𝑗 π‘₯𝑗

𝑁

𝑗=1

[𝐿]𝑖𝑗

𝐿 = 𝐷 βˆ’ 𝐴

Page 4: Laplacianos y aprendizaje semisupervisado

Propiedades

L es simΓ©trica L es semidefinida-positiva (i.e. autovalores πœ†π‘– β‰₯ 0, 𝑖 = 1…𝑁) Suma por columnas y por filas de L es cero Siempre πœ† = 0 es autovalor de L con autovector v0=(1,1,…,1), ya

que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible)

𝐿 = 𝐷 βˆ’ 𝐴

Page 5: Laplacianos y aprendizaje semisupervisado

Propiedades

L es simΓ©trica L es semidefinida-positiva (i.e. autovalores πœ†π‘– β‰₯ 0 , 𝑖 = 1…𝑁) Suma por columnas y por filas de L es cero Siempre πœ† = 0 es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaΓ±os n1, n2,…, np

𝐿 = 𝐷 βˆ’ 𝐴

L1

L2

Notar que ahora habrΓ‘ p autovectores de L asociados a πœ† = 0 de la forma

(1,… , 1𝑛1

, 0,0, . . . , 0)

(0,… , 0 ,𝑛1

1, … , 1𝑛2

, 0,0, . . . , 0)

(0,… , 0𝑛1

, 0, … , 0𝑛2

, 1, … , 1𝑛3

, 0,0, . . . , 0)

Laplaciano combinatorio

Page 6: Laplacianos y aprendizaje semisupervisado

Propiedades

L es simΓ©trica L es semidefinida-positiva (i.e. autovalores πœ†π‘– β‰₯ 0, 𝑖 = 1…𝑁) Suma por columnas y por filas de L es cero Siempre πœ† = 0

es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0

L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaΓ±os n1, n2,…, np, existen p autovectores de L

asociados a πœ† = 0

𝐿 = 𝐷 βˆ’ 𝐴

Corolario: - el segundo autovalor de L es πœ†2 β‰  0 sii el grafo posee una ΓΊnica componente - πœ†2 se denomina conectividad algebraica de la red

Laplaciano combinatorio

Page 7: Laplacianos y aprendizaje semisupervisado

Autovectores de L

autovector i-esimo

𝑳𝝓𝑖 = πœ†π‘–π“π‘–

𝝓𝑖 define un campo escalar sobre el grafo

Notar: autovectores de bajo Γ­ndice estΓ‘n asociados a campos mΓ‘s suaves sobre el grafo

Page 8: Laplacianos y aprendizaje semisupervisado

Caminatas al azar…y difusiΓ³n

𝑝𝑖 𝑑 + 1 = 1

π‘˜π‘—π‘Žπ‘–π‘— 𝑝𝑗(𝑑)

𝑁

𝑗=1

Esta misma ecuaciΓ³n aplica a procesos de tipo difusivos en una red, donde en cada paso temporal toda la cantidad de material que se encuentra en el nodo-i es repartida y enviada a sus vecinos

π‘₯𝑖 𝑑 + 1 = 1

π‘˜π‘—π‘Žπ‘–π‘— π‘₯𝑗(𝑑)

𝑁

𝑗=1

pi(t) probabilidad de encontrar a Juan en el nodo-i, en el paso temporal t

xj(t) cantidad de material que a tiempo t se encuentra en el nodo-j

el recurso xj se reparte extensivamente

Page 9: Laplacianos y aprendizaje semisupervisado

DifusiΓ³n random-walk en redes

en cada nodo hay una cantidad xi de material

A cada paso, la cantidad xi de cada nodo se altera

π‘₯𝑖 𝑑 + 1 = 1

π‘˜π‘—π‘Žπ‘–π‘— π‘₯𝑗(𝑑)

𝑁

𝑗=1

βˆ†π‘₯𝑖 = π‘₯𝑖 𝑑 + 1 βˆ’ π‘₯𝑖 𝑑 = 1

π‘˜π‘—π‘Žπ‘–π‘— π‘₯𝑗 𝑑

𝑁

𝑗=1

βˆ’ π‘₯𝑖 𝑑

= 1

π‘˜π‘—π‘Žπ‘–π‘— π‘₯𝑗 𝑑

𝑁

𝑗=1

βˆ’ 𝛿𝑖𝑗 π‘₯𝑗 𝑑 𝛿𝑖𝑗 = 1 𝑠𝑖𝑖 𝑖 = 𝑗

= βˆ’ 𝛿𝑖𝑗 βˆ’1

π‘˜π‘—π‘Žπ‘–π‘—

[πΏπ‘Ÿπ‘€]𝑖𝑗

𝑁

𝑗=1

π‘₯𝑗 𝑑

Laplaciano random-walk

βˆ†π’™ = βˆ’πΏπ‘Ÿπ‘€π’™ 𝑑𝒙

𝑑𝑑= βˆ’πΏπ‘Ÿπ‘€π’™

𝑑𝒙

𝑑𝑑= 𝛻2𝒙

Page 10: Laplacianos y aprendizaje semisupervisado

Laplacianos

𝑑π‘₯𝑖𝑑𝑑

= βˆ’ 𝛿𝑖𝑗 βˆ’1

π‘˜π‘—π‘Žπ‘–π‘— π‘₯𝑗 𝑑

𝑁

𝑗=1

[πΏπ‘Ÿπ‘€]

𝑖𝑗

πΏπ‘Ÿπ‘€ = 𝐼 βˆ’ π·βˆ’1𝐴 = π·βˆ’1𝐿

𝑑π‘₯𝑖𝑑𝑑

= βˆ’πΆ π›Ώπ‘–π‘—π‘˜π‘— βˆ’ π‘Žπ‘–π‘— π‘₯𝑗

𝑁

𝑗=1

[𝐿]𝑖𝑗

𝐿 = 𝐷 βˆ’ 𝐴

πΏπ‘ π‘¦π‘š ≑ π·βˆ’1/2πΏπ·βˆ’1/2 = 𝐼 βˆ’ π·βˆ’1/2πΏπ·βˆ’1/2

L : Laplaciano combinatorio o no-normalizado Lrw: Laplaciano random-walk Lsym: Laplaciano normalizado o simetrico

Entonces, vimos dos tipos de procesos difusivos:

Page 11: Laplacianos y aprendizaje semisupervisado

PriorizaciΓ³n de nuevas asociaciones gen/enfermedad

Kolher et al The American Journal of Human Genetics 2008

Algoritmos para propagar sentido de pertenecia al conjunto de interΓ©s: Random Walk with Restart (Kholer 2009) Net-Rank (Chen 2009) Net-Propagation (Vanunu 2010) Functional Flow (Navieba 2005)

Lo podemos pensar tambiΓ©n como un proceso de difusiΓ³n con fuentes

Page 12: Laplacianos y aprendizaje semisupervisado

DifusiΓ³n en redes y aprendizaje semi-supervisado

Tengo informaciΓ³n parcial asociada a un subconjunto de nodos (etiquetas, o valores reales) y quiero utilizarla para inferir propiedades de los no-etiquetados Cada nodo va a propagar su etiqueta de manera iterativa hasta converger

Problema de clasificaciΓ³n: l nodos etiquetados con valor 1 (azul) o -1 (rojo) y N-l nodos con valor 0.

1

1

-1

-1

El problema de aprendizaje semi-supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con

I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red

Problema de priorizaciΓ³n: l nodos etiquetados con valor 1 y N-l nodos con valor 0.

1

1

0.8

1

2.3

2

Problema de regresiΓ³n: l nodos etiquetados con valores reales y N-l nodos con valor 0.

Page 13: Laplacianos y aprendizaje semisupervisado

DifusiΓ³n en redes y aprendizaje semi-supervisado

Computo de matriz de adyacencia W Computo de matriz diagonal D: 𝐷𝑖𝑖 ← 𝑀𝑖𝑗𝑗

Inicializo π‘Œ (𝑑=0) ← 𝑦1, … , 𝑦𝑙 , 0,0, … , 0 Itero hasta convergencia

1. π‘Œ (𝑑+1) ← π·βˆ’1π‘Šπ‘Œ (𝑑)

2. π‘Œ 𝑙(𝑑+1)

← π‘Œπ‘™

Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛(𝑦 𝑖(∞))

Algoritmo 1 Label Propagation (Zhu 2002)

1

1

-1

-1

Sea el grafo G, nodos 1,2,…,l etiquetados no trivialmente

segun π‘Œπ‘™ = 𝑦1, … , 𝑦𝑙 nodos l+1,…,N etiquetados con valor 0 Queremos propagar la informaciΓ³n por la

red y estimar el vector de etiquetas

asintΓ³tico: π‘Œ = π‘Œ 𝑙 , π‘Œ 𝑒

Page 14: Laplacianos y aprendizaje semisupervisado

DifusiΓ³n en redes y aprendizaje semi-supervisado

Algoritmo 2 Label Propagation

Computo de matriz de adyacencia W, se fija wii=0

Computo de matriz diagonal D: 𝐷𝑖𝑖 ← 𝑀𝑖𝑗𝑗

Elijo Ο΅ > 0 y 𝛼 ∈ 0,1

πœ‡ ←𝛼

1βˆ’π›Ό(0,+∞)

Computo la matriz diagonal 𝐴𝑖𝑖 ← 𝐼 𝑙 𝑖 + πœ‡π·π‘–π‘– + πœ‡νœ€

Inicializo π‘Œ (𝑑=0) ← 𝑦1, … , 𝑦𝑙 , 0,0, … , 0 Itero hasta convergencia

π‘Œ (𝑑+1) ← π΄βˆ’1(πœ‡π‘Šπ‘Œ 𝑑 + π‘Œ 0 )

Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛(𝑦 𝑖(∞))

1

1

-1

-1

para nodo etiquetado

para nodo sin etiquetar

Diferencias con Algo 1 Se fija wii=0 Se permite π‘Œ 𝑙 β‰  π‘Œπ‘™ Se considera un termino de regularizaciΓ³n Ο΅

𝐼 𝑙 :matriz diagonal con 1’s en los primeros l elementos y 0 el resto

Page 15: Laplacianos y aprendizaje semisupervisado

DifusiΓ³n en redes y aprendizaje semi-supervisado

Computo de matriz de adyacencia W, se fija wii=0

Computo de matriz diagonal D: 𝐷𝑖𝑖 ← 𝑀𝑖𝑗𝑗

Computo Laplaciano simetrico

β„’ ← π·βˆ’1/2π‘Šπ·βˆ’1/2

Inicializo π‘Œ (𝑑=0) ← 𝑦1, … , 𝑦𝑙 , 0,0, … , 0

Elijo 𝛼 ∈ [0,1)

Itero hasta convergencia

π‘Œ (𝑑+1) ← π›Όβ„’π‘Œ (𝑑) + 1 βˆ’ 𝛼 π‘Œ 0

Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛(𝑦 𝑖(∞))

Algoritmo 3 Label Propagation (Zhou 2004)

1

1

-1

-1

DifusiΓ³n con fuentes

Page 16: Laplacianos y aprendizaje semisupervisado

RegularizaciΓ³n en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con

I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red

Sea π‘Œ = (π‘Œ 𝑙 , π‘Œ 𝑒)

etiquetados

no-etiquetados

Consistencia con etiquetado inicial:

Consistencia con geometrΓ­a de los datos:

penalizamos apartamiento de etiquetado original

penalizamos cambios bruscos de etiquetado

Page 17: Laplacianos y aprendizaje semisupervisado

RegularizaciΓ³n en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con

I. El etiquetado inicial (incompleto) II. La geometria inducida por la estructura de la red

β„‹(π‘Œ ) = 𝑦 𝑖 βˆ’ 𝑦𝑖2

𝑙

𝑖=1

+1

2 𝑀𝑖𝑗

𝑁

𝑖,𝑗=1

𝑦 𝑖 βˆ’ 𝑦 𝑗2

penalizamos apartamiento de etiquetado original

penalizamos cambios bruscos de etiquetado

= π‘Œ 𝑙 βˆ’ π‘Œπ‘™2+π‘Œ π‘‡πΏπ‘Œ

Se trata de encontrar el etiquetado π‘Œ que minimice β„‹(π‘Œ )

β„‹(π‘Œ ) = π‘Œ 𝑙 βˆ’ π‘Œπ‘™2+ πœ‡π‘Œ π‘‡πΏπ‘Œ + ΞΌπœ– π‘Œ 𝑙

2

En la practica se suele agregar un tΓ©rmino de regularizaciΓ³n para romper la simetrΓ­a entre etiquetas

Page 18: Laplacianos y aprendizaje semisupervisado

RegularizaciΓ³n en grafos Se trata de encontrar el etiquetado π‘Œ que minimice β„‹(π‘Œ )

β„‹(π‘Œ ) = π‘Œ 𝑙 βˆ’ π‘Œπ‘™2+ πœ‡π‘Œ π‘‡πΏπ‘Œ + ΞΌπœ– π‘Œ 𝑙

2

1

2

πœ•β„‹(π‘Œ )

πœ• π‘Œ = 𝑆 π‘Œ βˆ’ π‘Œ + ΞΌ 𝐿 π‘Œ + ΞΌπœ–π‘Œ

𝑆 = 𝐼 𝑙 matriz diagonal con 1’s en los primeros l

elementos y 0 el resto π‘†π‘Œ βˆ’ π‘†π‘Œ

2

= 𝑆 + ΞΌ 𝐿 + ΞΌπœ–πΌ π‘Œ βˆ’ Sπ‘Œ

β‡’ π‘Œ = 𝑆 + ΞΌ 𝐿 + ΞΌπœ–πΌ βˆ’1Sπ‘Œ

Las etiquetas optimas pueden obtenerse invirtiendo una matriz

Esta matriz depende ΓΊnicamente del Laplaciano de la red (no de las etiquetas)

La manera en que las etiquetas se propagan depende exclusivamente de la estructura del grafo

= 0

Page 19: Laplacianos y aprendizaje semisupervisado

RegularizaciΓ³n en grafos Hay otras elecciones para la funciΓ³n a minimizar:

β„‹β€²(π‘Œ ) = π‘Œ βˆ’ π‘†π‘Œ2+πœ‡

2 𝑀𝑖𝑗

𝑖,𝑗

𝑦 𝑖

π·π‘–π‘–βˆ’

𝑦 𝑗

𝐷𝑗𝑗

β„‹(π‘Œ ) = π‘†π‘Œ βˆ’ π‘†π‘Œ2+ πœ‡π‘Œ π‘‡πΏπ‘Œ + ΞΌπœ– π‘Œ 𝑙

2

Zhou 2004

Dos diferencias entre β„‹ (π‘Œ )y β„‹β€²(π‘Œ ): I. El primer tΓ©rmino busca ajustar bien las etiquetas conocidas pero

ademΓ‘s favorece etiquetas 0 para nodos no-etiquetados inicialmente

II. Las etiquetas estΓ‘n normalizadas por la raiz cuadrada del grado cuando se computa similaridad entre vecinos.

π‘Œ 𝑙 βˆ’ π‘Œπ‘™2+ π‘Œ 𝑒

2

β„‹β€²(π‘Œ ) = π‘Œ βˆ’ π‘†π‘Œ2+ πœ‡(π·βˆ’1/2π‘Œ )𝑇𝐿(π·βˆ’1/2π‘Œ )

Se puede ver que

Page 20: Laplacianos y aprendizaje semisupervisado

VΓ­nculo entre regularizaciΓ³n y propagaciΓ³n de etiquetas

β„‹(π‘Œ ) = π‘†π‘Œ βˆ’ π‘†π‘Œ2+ πœ‡π‘Œ π‘‡πΏπ‘Œ + ΞΌπœ– π‘Œ 𝑙

2

β‡’ π‘Œ βˆ— = 𝑆 + ΞΌ 𝐿 + ΞΌπœ–πΌ βˆ’1Sπ‘Œ

Metodo iterativo de Jacobi para invertir una matriz:

𝑀π‘₯ = 𝑏

π‘₯𝑖(𝑑+1)

=1

𝑀𝑖𝑖𝑏 βˆ’ 𝑀𝑖𝑗π‘₯𝑗

(𝑑)

𝑗≠𝑖

para nodo etiquetado para nodo sin etiquetar

π‘₯ ≑ π‘Œ , 𝑏 ≑ π‘†π‘Œ,𝑀 = 𝑆 + ΞΌ 𝐿 + ΞΌπœ–πΌ En nuestro caso y la iteraciΓ³n de Jacobi resulta en

Algoritmo 2 de propagaciΓ³n de etiquetas (!)

1

1

Page 21: Laplacianos y aprendizaje semisupervisado

RegularizaciΓ³n y propagaciΓ³n de etiquetas

1

2

πœ•β„‹β€²(π‘Œ )

πœ• π‘Œ = π‘Œ βˆ’ π‘†π‘Œ + ΞΌ (π‘Œ βˆ’ β„’π‘Œ )

β„‹β€²(π‘Œ ) = π‘Œ βˆ’ π‘†π‘Œ2+ πœ‡(π·βˆ’1/2π‘Œ )𝑇𝐿(π·βˆ’1/2π‘Œ )

β‡’ π‘Œ βˆ— = 1 + ΞΌ 𝐼 βˆ’ ΞΌ β„’βˆ’1Sπ‘Œ

Algoritmo 3 de propagaciΓ³n de etiquetas (!)

π‘Œ (𝑑+1) ← π›Όβ„’π‘Œ (𝑑) + (1 βˆ’ 𝛼)π‘Œ (0) con πœ‡ =𝛼

1βˆ’π›Ό

La iteracion de Jacobi para resolver πœ•β„‹β€²(π‘Œ )

πœ• π‘Œ = 0

Page 22: Laplacianos y aprendizaje semisupervisado

Conclusiones

β€’ Vimos ejemplos donde es posible establecer un link entre una metodologia de propagacion de etiquetas y un proceso de minimizacion de una cantidad que da cuenta de

– el ajuste a la informacion inicial (parcial)

– suavidad del campo de etiquetas sobre la geometria de los datos

Page 23: Laplacianos y aprendizaje semisupervisado

Refs

β€’ Capitulo 11 de Semi-supervised learning, Chapelle et al, Label propagation and quadratic criterion.