métodos locales i - github pagesidea: caracterizar la estructura local en el espacio original, y...

23
M I A R-F I C D (A ) ..

Upload: others

Post on 13-Aug-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

Métodos locales IAlan Reyes-FigueroaIntroducción a la Ciencia de Datos (Aula 15) 25.febrero.2021

Page 2: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

Métodos localesRecordemos la idea subyacente en el escalamiento multidimensional:mapear los datos xi ∈ Rd a un espacio de menor dimensión x∗i ∈ Rp, conp < d

minx∗i ,x

∗j

n∑i=1

n∑j=1

(d(xi, xj)2 − d(x∗i , x∗j )2)2

. (1)

Los métodos locales tienen el mismo propósito, queremos reducir ladimensión de los datos xi. De igual forma, mapeamos los datos via unafunción (no lineal) f : Rd → Rp, f (xi) = x∗i .de modo que f preserve la estructura de los datos originales xi.

Obs! La diferencia con los métodos globales (PCA, MDS) es que no utilizantodos los datos, y usualmente no son lineales.Métodos locales I | Alan Reyes-Figueroa Page 1

Page 3: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

Isomap

Ref : J. B. Tenenbaum et al. A Global Geometric Framework for NonlinearDimensionality Reduction, Science 290, (2000), 2319-2323.http://www-clmc.usc.edu/publications/T/tenenbaum-Science2000.pdf

Idea: Hacer MDS (escalamiento multidimensional) con distancias entre puntoscalculadas a partir de un grafo que refleja la estructura local de los datos.• Construye un grafo ponderado G basado en estructura local: cada

dato xi es un vértice; conecta un dato con sus k-vecinos máscercanos (simetrizar); pesos son distancias.

• Calcula para cada par de datos d(xi, xj) la distancia del camino máscorto entre xi y xj sobre el grafo G (algoritmo de Dijkstra).

• Aplicar escalamiento multidimensional a partir de {d(xi, xj)}

Métodos locales I | Alan Reyes-Figueroa Page 2

Page 4: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

Isomap

Métodos locales I | Alan Reyes-Figueroa Page 3

Page 5: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

Isomap

Métodos locales I | Alan Reyes-Figueroa Page 4

Page 6: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

Isomap

Métodos locales I | Alan Reyes-Figueroa Page 5

Page 7: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

Isomap

Métodos locales I | Alan Reyes-Figueroa Page 6

Page 8: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

t-SNERefs: SNE: Roweis, Sam; Hinton, G. (2002). Stochastic neighbor embedding. NeuralInformation Processing Systems.T-SNE: van der Maaten, L.J.P.; Hinton, G.E. (2008). Visualizing Data Using t-SNE. Journal ofMachine Learning Research.

Idea: convierte similitudes entre datos en probabilidades de un experimento aleatorio.Trata de conservar estas distribuciones en el nuevo espacio.• Para un dato xi define Pi : pj|i = probabilidad de elegir xj como

vecino: entre más similar, mayor probabilidad.• Buscamos datos {x∗i } con Qi : qj|i = probabilidad de elegir x∗j como

vecino de x∗i , tal que las distribuciones pj|i y pj|i se parecen.¿Cómo medir distancias entre distribuciones? DivergenciaKullback-Leibler: DKL(P||Q) =

∑i Pi log

PiQi

.

Métodos locales I | Alan Reyes-Figueroa Page 7

Page 9: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SNESNE: stochastic neigbourhood embedding.Definir:

Pi : pj|i = 1ciexp(−||xj − xi||2/σi), ci =

∑k 6=i

exp(−||xk − xi||2/σi);

Qi : qj|i = 1c∗iexp(−||x∗j − x∗i ||2), c∗i =

∑k 6=i

exp(−||x∗k − x∗i ||2).

Función de costo: J =∑

i d(Pi,Qi).

La derivada de la funcion de costo en ∂J∂xi

es∂J∂xi

= 2∑j

(x∗j − x∗i )

2(pj|i − qj|i + pi|j − qi|j).

Está relacionada con atracción / repulsión.

Parámetro perplexity (para calcular las σi): número de vecinos efectivosde un dato (se base en la entropía de la distribución de las distancias).Métodos locales I | Alan Reyes-Figueroa Page 8

Page 10: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

t-SNEt-SNE: t-distributed stochastic neigbourhood embedding.En el espacio de {x∗i }, cambiamos la gausiana por una distribucion t1(distribución Cauchy): f (t) = 1

π(1+t2) , tiene colas más pesadas.⇒ se castiga menos distancias grandes.

Métodos locales I | Alan Reyes-Figueroa Page 9

Page 11: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

t-SNE

Explorar https://projector.tensorflow.org/

Métodos locales I | Alan Reyes-Figueroa Page 10

Page 12: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

t-SNE

60 40 20 0 20 40 60

60

40

20

0

20

40

60

dea la

me

el

@usuario

ense

verga

losputos

mi

te

las

como

su

tu

una

loca

pero

del

pinche

yo

cuando

puta

son

les

estoy

todos

sus

porque

esta

está

joto

hdp

q

vale

soy

pinches

mis

puto

quiero

eres

mejor

verga.

siempre

tieneluchona

ese

vida tengo

madre.

mierda

hijos

tienen

hoy

hijo

día

esos

tus

maricon

van

alguien

pendejo

mamá

vas

están

dos

algo

también

puedo

méxico

madres

culo

chingar

mañana

chingas

pendeja

días

mil

cosas

mamar

amor

putita

menos

años

ojalá

mundial

mujeres

he

deja

ve

sabes

estaba

loca.

putos.

pendejos

-

unos

digo

d

3

valer

alv

siento

putas.

estos

rt

pueden

después

veo

ustedes

hija

chinguen

chinga

:(

noche

buena

?

digan

cara

amigos

perra

amo

tiempo

pone

hombres

dan

valen

partido

chingue

fin

andar

!!!

¿qué

vergas

saben

andan

10

persona

necesito

dejen

ando

semana

puro

hora

vaya

valió

valiendo

creen

ah

nuevo

nalgas

importa

huevos

dormir

cagan

volviendo

seas

sean

perro

oye

miedo

dije

chile

asco

poder

!

verga?

putito

políticos

maldito

hecho

culero

bonita

vayan

v

messi

hondureños

hice

hdp.

bola

vuelve

vete

tarea

selección

ratas

quiera

lameculos

escuchar

viejo

video

tenemos

queda

perros

pasar

meter

medio

llegar llega

hago

fui

acabo

valgo

trump

teresa

siguen

quería

putos!

periodistas

mexicanos

mando

gol

contigo

clases

argentina

#putita

|

traigo

primero

mierda.

gringos

contra

canción

además

vida.

valga

usar

sienten

pongo

música

llevo

habla

aparte

6

#putas

vivir

pendeja.

escuela

eran

dejan

coger

cabron

pri

otros

mía

extraño

corruptos

cagas

berga

urge

sigo

salgo

pueblo

peña

ojala

machorra

loca!

fiesta

facebook

darte

canciones

cabrón

ahorita

vergazos

toca

sabemos

rateros

puse

presidente

pito

pedamentar

mandó

mandarte

juro

hdp!

ellas

culeros

basura

#noerapenal

vemos

valiste

the

tetas

semanas

robar

puso

pesar

perras

palabras

muerto

mente

mandan

luis

justo

jajajajajajaja

idiota

hueva

hotel

hola

hijas

hacerlo

frío

estados

concha

comer

chilenos

chica

calcuta

besos

alcohol

acabar

2.1.

&lt;3vergazo

verga...

tuve

televisa

t

sacar

pendejadas

pedir

panocha

osorio

metro

mediocre

manos

malditos

karma

jugadores

holanda

hermosa

ganar

doble

cobarde

baño

aqui

adiós

#hdp

¿cómo

vuelvovuelven

unidos

salga

reportero

puerta

ponte

pedazo

morras

hdp!!

dime

caer

argentinos

100

"el

éste

¡ya

whenwey.

viste

vatos

tremendo

tinaco

tareas

simios

reputa

quedaron

puebla

problemas

patria

mío

mosquitos

mexicano

loca

linda

like

leo

hocico

gana

fumo

fea

encuentro

enamorada

empiezan

cuerpo

conocer

chingón

casa.

azul

alto

#verga

#travesti

agua

árbitro

¿quién

¡verga!

zorras

vive

vez.

venezuela

vayanse

uso

usan

tierra

tiatatuajes

sexy

seré

redes

ratero

rata

puta.

propio

profesor

penal

pario

muero

maricones

macho

loca...

litros

jotos

halloween

gustas

eduardo

deseo

cruz

coldplay

closet

chingando

celosbien.

america

afuera

adivinen

60

50 2017

¡no

valores

traes

totalmente

tiran

terminan

tendría

spotify

seguridad

segunda

santas

s

robaron

realmente

quizás

queden

putas...

primaria

priistas

priista

pelas

parió

orgulloof numero

nobel

nieto

nervios

necesario

nacos

muerte

momentos mero

merecen

mate

madre!!!

llora

librelame

lados.

juegan

jalando

irme

intensa

humano

huevos.

hablas

gato

favfaltar

exámenes

estúpido

escuchan

escuchadoenojada

ejercicio

ecuador

diferentes

dientes

dicho

demasiado

defendiendo

daba

cínicos

cumplir

culito

cuanta

contandochina

chairos

cerveza

capítulo

canal

ano

alma

:/

*

#rusia2018

#pedarumboarusia

#méxico

#exo

éstos

vengas

traidores

traidor

ticos

reputisima

politicos

modos

miserables

mierda!

mejores

maten

marrano

maluma

llegan

ladrón

jodido

indios

imbéciles

harto

hacerte

gordas

garganta

gabriel

fin.

feos

feas

falso

estúpida

estes

enano

dulces

despues

desgraciado

daría

cuidado

criticandocobran

chiste

chinge

chilangos

ches

chamaco

carlos

carita

cargue

capacidad

caca

burlan

boquita

basura.

atrás

asquerosa

asientos

as

aquel

antoja

anciano

algunas

alentar

aguantar

agarren

aborto

90

#holanda

vestirse

traigan

tiro

terco.

soporto

sinvergüenzas

rosa

rogelio

river

respetan

renuncia

relaciones ra

quisieras

póngase

puto!

princesa

portada

ponerte

pocos

pierdan

piedra

pezones

perrito

pendejas.

ora

narcopoliticos

nacamierd@

meterle

metan

maña

mato

mamás

maman

malparido

lozano

llorones

llegando

largate

lacra

justicia

jijo

jefes

infierno

ignorantes

humildad

hondureños.

heterosexuales

hdp...

hambre

habían

habría

hables

gringos.

gerardo

filtros

estupido

ellos.

desaparecer

defender

dedica

daño

cárcel

corazón.

cool

contento

chingues

chingan

cerebro

casas

campeón

calvo

bis

australia

arbitro

aguante

¿pero

¡maricón!

zorro

zavala

yuriko

youtubers

yankees.

yankees

wila víctima

vividor

violador

vidal

vida!

victor

vicioso

verja

vergazos.

venganza

vendido

varo

vaqueros

van.

vaciarme

usarán

usaron

técnico

tráfico.

trunca

triunfo

trató

tramposos

toquen

todos!!

tenías

tendré

temblor

tecates

suplentes

sufriendo

sueldo.

sudamericanos

son.

soltado

sociedad

simios?

saques

saqueo

saquen

santander

sangre.

saludable

saliste

saldrásabias

río

rogando

rodilla

robó robando

roba

ridículos

reverendo

respetos

respeto.

reputísima

reportó

reglas

reforma

refieren

ratas.

raro

ramos

quiénes

queremos

quedado

putos

putos..

putas":

puchas

publican

prro

preñada

presumes

presidencia

prensa

pose

populista

pija

peru

periodistas"

pene

pendejete

pendejazo

pegelagarto

pedrito

patas

pasa?

partiría

parió!

parezca

paren

panameña

pagas

oyos

organizan

orate

oportunidad.

opinar

ooooohhh

oficinas

ofenden obsesionada

objetivo

nenasnecio

navas

narizones

naco.

musicales

mueres

morros

morder

mon

miseria

miserables!

mirar

millonarios

mierderos

mierda!!

metertela

metaleros

mentes

memo

meca

maría

maricon!!!

manejar

manejan

mamen.

mamar.

mamar!!! maletas

magia

lópez

llenarte

llegara

ligar

ley

lata

larguen

lamehuevos

lameculos.

ladrones.

ladrones

jálate

jugo

juegas

jsjaja

joto!!

josé?jajajajajjaja

jajajaa

inventes

infonavit

imbeciles

imagenes

ilegales

igual)

ignorancia

hocicon

hipócritas

hipócrita

hijodeputa

hicieran..

hdp?

hdp!!!!

hambre.

hablen

guatemalteco

guapa

grites

grande!!

gasolina

garchar

ganarle

ganamos

gachupines

futbolistas

funcionario

fuck

firmas.

finales

fernando

feministas

exquisita

exacto

estupida

estacionamientos

esq

especialmente

escuincle

es...

envidia

entregué

entradas

encabronados

embona

embarrarte

eliminen

edomex

ecuatorianos

echaron

déjense

dybala

dreamers

doler

divodisfrazado

diré

diputado

dioses

dineral

dilo

dibujar

desviado

demuestra

delincuentes

degenerado

césar

cámaras

curas

culera.

cuernos

crossfiteros

creído

creían

costly

costarica

corran

coordinadores

contigo.

conflicto

condones

comunidad

compran

compartiendo

cojones

cojerte

cobre

cobardes

cleveland

cholo

chingo.

chingen

chingarse

chileno

changos

cerdita

celebra

casadas

carril

cargas

carcel

cagues

cagada.

caeli

cabras

buchona

brasil

bofo

bio

bien!!

bestia

balazos

ayyyy

atlas

asu

asqueroso

arrastrado

ardidos

ardido

apoyando

andarle

andabaanalizar

amistades

amig@

altere

alonso

alemania

alegría

aire...

agárrense

agreguen

agarraron

agarraba

afloje

aficion

admirar

acomplejado

aburren

abris

abran

abogadin.

#unmomentodeldiapara

#televisa

#osorio

#oaxaca

#nadapersonal

#miércolesdementadas

#losricossepierdende

#laislareality

#fuerzamexico

t-SNE aplicado a palabras en tweets.

Métodos locales I | Alan Reyes-Figueroa Page 11

Page 13: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

LLELLE: Local Linear EmbeddingRefs: Roweis ST, Lawrence LK (2000) Nonlinear Dimensionality Reduction by LocallyLinear Embedding, Science 290(5500): 2323-2326.https://cs.nyu.edu/ roweis/lle/publications.html

Idea: Caracterizar la estructura local en el espacio original, y tratamos de conservar estaestructura local en el nuevo espacio.• Si conozco los k-vecinos más cercanos a xi, denotados por{xj : j ∈ vec(i)}.Vamos a tratar de escribir xi como combinación lineal de susk-vecinos más cercanos (k < d)

xi =∑

j∈vec(i)

wijxj, com∑

j∈vec(i)

wij = 1.

Métodos locales I | Alan Reyes-Figueroa Page 12

Page 14: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

LLE• Para cada xi buscamos los k-vecinos

más cercanos {xj : j ∈ vec(i)}.• Resolvemos

minwij

∑i

||xi −∑

j∈vec(i)

wijxj||2,

sujeto a∑

jwij = 1.• Resolvemos

minx∗j

∑i

||x∗i −∑

j∈vec(i)

wijx∗j ||2,

sujeto a restricciones de norma ypromedio de x∗j .

Métodos locales I | Alan Reyes-Figueroa Page 13

Page 15: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

LLE

Métodos locales I | Alan Reyes-Figueroa Page 14

Page 16: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

LLE

Métodos locales I | Alan Reyes-Figueroa Page 15

Page 17: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SOMSOM: Self organizing mapsRef : Kohonen, Teuvo (1982). Self-Organized Formation of Topologically Correct FeatureMaps. Biological Cybernetics 43 (1): 59-69.

Idea: Colocar cada dato xi en una celda c`(i) de una retícula o grid. Asociamos con cadacelda c` un representante m` ∈ Rd.

Métodos locales I | Alan Reyes-Figueroa Page 16

Page 18: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SOMImponemos que• los representantes a celdas cercanas sean similares,• los datos son similares al representante de su celda.

Repetir para cada xi:1. Buscar el repreentante más cercano a xi, denotado como m`(i)

2. Para todas las celdas ck„ actualizamosmk = mk + αh

(d(ck, c`(i))2)||xi −mk||2.

(h es positiva y decreciente, d es la distancia en el grid, α es untamaño de paso decreciente en el tiempo.)

El método minimiza la función de costoJ({mk}, {`(i)}) =

∑`

∑k

h(d(ck, c`(i))2)||xi −mk||2.

Métodos locales I | Alan Reyes-Figueroa Page 17

Page 19: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SOM

SOM de países sobre 39 indicadores: salud, educación, economía, servicios, ... (Kohonen)

Métodos locales I | Alan Reyes-Figueroa Page 18

Page 20: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SOM

Métodos locales I | Alan Reyes-Figueroa Page 19

Page 21: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SOM

Métodos locales I | Alan Reyes-Figueroa Page 20

Page 22: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SOM

Métodos locales I | Alan Reyes-Figueroa Page 21

Page 23: Métodos locales I - GitHub PagesIdea: Caracterizar la estructura local en el espacio original, y tratamos de conservar esta estructura local en el nuevo espacio. Si conozco los k-vecinos

SOM

Métodos locales I | Alan Reyes-Figueroa Page 22