Download - Filtrado Basado en Contenido
![Page 1: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/1.jpg)
FFiillttrraaddoo BBaassaaddoo eenn CCoonntteenniiddooIIC 3633 - Sistemas Recomendadores
Denis ParraProfesor Asistente, DCC, PUC CHile
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
1 of 28 8/23/18, 11:18
![Page 2: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/2.jpg)
TOCEn esta clase
Contenido en lugar de ratings1.
Representación de Espacio Vectorial2.
TF-IDF3.
Buscando Items Similares4.
Representación en Espacio Latente5.
2/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
2 of 28 8/23/18, 11:18
![Page 3: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/3.jpg)
Por Qué un Recomendador Basado en Contenido
PROS
CONS
El filtrado colaborativo tiene algunas desventajas: cold-start, sparcity, transparency.·
A diferencia del Filtrado Colaborativo, si los items tienes descripciones suficientes, nosevitamos el "new-item problem""
Las representaciones del contenido son variadas y permiten utilizar diversas técnicas deprocesamiento del texto, uso de información semántica, inferencias, etc.
Es sencillo hacer un sistema más transparente: usamos el mismo contenido para explicar lasrecomendaciones.
·
·
·
Tienden a la sobre-especialización: va a recomendar items similares a los ya consumidos,creando una tendencia al "filter bubble".
Los métodos basados en filtrado colaborativo han mostrado ser, empíricamente, másprecisos al momento de generar recomendaciones.
·
·
3/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
3 of 28 8/23/18, 11:18
![Page 4: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/4.jpg)
Arquitectura de un Sistema de Recomendación CBLos componentes principales son: (1) Analizador del Contenido, (2) Aprendizaje del Perfil deUsuario, (3) Filtrado de Contenido
·
4/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
4 of 28 8/23/18, 11:18
![Page 5: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/5.jpg)
Representación del Contenido: Bolsa de PalabrasSe suele representar a los documentos como "bolsas de palabras"; de esta forma es fácilpasar a representar cada documento como un vector (Vector Space Model)
·
5/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
5 of 28 8/23/18, 11:18
![Page 6: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/6.jpg)
Representación del Contenido: VSMEl corpus completo puede entonces representarse como una matriz donde las filas sontérminos y las columnas son documentos.
·
Luego, ¿Cúal es la mejor forma de representar los pesos de los términos?·
6/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
6 of 28 8/23/18, 11:18
![Page 7: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/7.jpg)
Representación del Contenido: VSM IIFrecuencia de los términosCada documento se representa como un vector, el "peso" de cada palabra para ese documento
puede darse en base a la frecuencia del término en el documento.
Podemos normalizar el valor en función de la frecuencia máxima de cualquier término en eldocumento.
7/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
7 of 28 8/23/18, 11:18
![Page 8: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/8.jpg)
Representación del Contenido: VSM IIILog de Frecuencia de los términosPero el hecho que un término aparece 100 veces y otro término sólo 10 veces, no hace a x10 veces más relevantes; por lo tanto podemos usar un logaritmo.
x y
8/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
8 of 28 8/23/18, 11:18
![Page 9: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/9.jpg)
Representación del Contenido: VSM IVTF-IDFBajo la intuición de que un término que aparece en sólo unos poco documentos podría serdescriptivo, podemos considerar la "Inverse Document Frequency" y combinarla con la "TermFrequency":
Done es el término , es el documento .tk k dj j
9/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
9 of 28 8/23/18, 11:18
![Page 10: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/10.jpg)
Resumen de Componentes del TF-IDF
10/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
10 of 28 8/23/18, 11:18
![Page 11: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/11.jpg)
Representación Semántica del ContenidoNo todo el contenido del documento corresponde a la misma categoría.
Autor, palabras clave, fechas, tópicos pueden dar una noción adicional de filtrado.
Opción 1: Representación semántica explícita (No lo veremos en detalle en esta clase)
Opción 2: Inferir representación semántica (LSI, LDA)
Opción 3: Word Vectors (Word2Vec, Glove)
·
·
·
Ontologías
WordNet
ConceptNet
-
-
-
·
·
11/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
11 of 28 8/23/18, 11:18
![Page 12: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/12.jpg)
Buscando Items SimilaresDistancia Euclidiana
Distancia Coseno
12/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
12 of 28 8/23/18, 11:18
![Page 13: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/13.jpg)
Buscando Items SimilaresDistancia Coseno
Fórmula
13/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
13 of 28 8/23/18, 11:18
![Page 14: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/14.jpg)
Buscando Items Similares IIOkapi BM25
Ref: Denis Parra and Peter Brusilovsky. 2009. Collaborative filtering for social tagging systems:an experiment with CiteULike. In Proceedings of the third ACM conference on Recommendersystems (RecSys '09) http://doi.acm.org/10.1145/1639714.1639757
14/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
14 of 28 8/23/18, 11:18
![Page 15: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/15.jpg)
Buscando Items Similares IIITécnicas de Procesamiento adicionales
Pasar a mayúsculas/minúsculas
Tokenization
Stemming (Porter, Krovetz)
Lemmatization
·
·
·
·
15/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
15 of 28 8/23/18, 11:18
![Page 16: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/16.jpg)
Buscando Items SimilaresRepresentación en espacio latente
Latent Semantic Indexing
Latent Dirichlet Allocation
·
·
16/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
16 of 28 8/23/18, 11:18
![Page 17: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/17.jpg)
LSI I
17/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
17 of 28 8/23/18, 11:18
![Page 18: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/18.jpg)
LSI II
18/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
18 of 28 8/23/18, 11:18
![Page 19: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/19.jpg)
LSI III
19/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
19 of 28 8/23/18, 11:18
![Page 20: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/20.jpg)
LSI IV
20/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
20 of 28 8/23/18, 11:18
![Page 21: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/21.jpg)
LSI IV
Demo: http://dfao-uc.github.io/
21/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
21 of 28 8/23/18, 11:18
![Page 22: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/22.jpg)
Proyección de documentos o términos nuevos
Folding in: Using Linear Algebra for Intelligent Information Retrieval·
22/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
22 of 28 8/23/18, 11:18
![Page 23: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/23.jpg)
NMF
Non-Negative Matrix Factorization·
23/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
23 of 28 8/23/18, 11:18
![Page 24: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/24.jpg)
LDA I
24/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
24 of 28 8/23/18, 11:18
![Page 25: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/25.jpg)
LDA II
25/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
25 of 28 8/23/18, 11:18
![Page 26: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/26.jpg)
LDA III
26/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
26 of 28 8/23/18, 11:18
![Page 27: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/27.jpg)
LDA IV
27/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
27 of 28 8/23/18, 11:18
![Page 28: Filtrado Basado en Contenido](https://reader035.vdocuments.pub/reader035/viewer/2022071012/62c93971a9972174071bbe4c/html5/thumbnails/28.jpg)
ReferenciasManning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol.1, p. 6). Cambridge: Cambridge university press.
Steyvers, M., & Griffiths, T. (2007). Probabilistic topic models. Handbook of latent semanticanalysis, 427(7), 424-440.
Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.
·
·
·
28/28
Filtrado Basado en Contenido file:///Volumes/GoogleDrive/My Drive/PUC/IIC3633-2018-2/Website_R_2018/clase8_co...
28 of 28 8/23/18, 11:18