Tareas de la minería de datos: análisis factorial
CI-2352 Intr. a la minería de datosProf. Braulio José Solano Rojas
ECCI, UCR
Tareas de la minería de datos: análisis factorial
● Descubrimiento de factores (análisis factorial)● El análisis factorial es un nombre genérico que se
da a una clase de métodos multivariantes cuyo propósito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos).
● Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores.
2 de 54
Tareas de la minería de datos: análisis factorial
● Descubrimiento de factores (análisis factorial)● Se puede considerar cada factor como una variable
dependiente que es función del conjunto entero de las variables observadas.
● El objetivo central es el resumen y la reducción de datos.
● Métodos● Análisis en componentes principales (ACP).● Análisis factorial de correspondencias simples y
múltiples (AFC).● Análisis canónico (AC).● Análisis discriminante (AD).
3 de 54
Análisis en componentesprincipales (ACP)
● El ACP es el método de minería de datos más utilizado en algunos países, como por ejemplo, Francia.
● Fue propuesto en 1933 por Hostelling.
● La primera implementación computacional se dio en los años 60.
● Fue aplicado para analizar encuestas de opinión pública por Jean Pages.
4 de 54
Análisis en componentes principales● Objetivo: construir un pequeño número de
nuevas variables (componentes) en las cuales se concentre la mayor cantidad posible de información, tal como se muestra en la figura:
5 de 54
ACP: datos de entrada
X=(x11 … x1 j … x1m⋮ ⋱ ⋮ ⋮ ⋮xi 1 … xi j … xi m⋮ ⋮ ⋮ ⋱ ⋮xn1 … xn j … xnm
)6 de 54
● Se parte de una tabla de datos:
Individuo i
Variable j
ACP: ejemplo de datosMatemáticas Ciencias Español Historia Educación
FísicaLucía 7,0 6,5 9,2 8,6 8,0Pedro 7,5 9,4 7,3 7,0 7,0
Inés 7,6 9,2 8,0 8,0 7,5Luis 5,0 6,5 6,5 7,0 9,0
Andrés 6,0 6,0 7,8 8,9 7,3Ana 7,8 9,6 7,7 8,0 6,5
Carlos 6,3 6,4 8,2 9,0 7,2José 7,9 9,7 7,5 8,0 6,0
Sonia 6,0 6,0 6,5 5,5 8,7María 6,8 7,2 8,7 9,0 7,0
7 de 54
ACP: nubes de puntos
Español9,27,38,06,57,87,78,27,56,58,7
Luis 5,0 6,5 6,5 7,0 9,0
● Individuos – filas:
● Variables – columnas:∈ℝ5
∈ℝ10
8 de 54
ACP: componentes principales
Matemá-ticas
Ciencias Español Historia Educación Física
Lucía 7,0 6,5 9,2 8,6 8,0
Pedro 7,5 9,4 7,3 7,0 7,0
Inés 7,6 9,2 8,0 8,0 7,5
Luis 5,0 6,5 6,5 7,0 9,0
Andrés 6,0 6,0 7,8 8,9 7,3
Ana 7,8 9,6 7,7 8,0 6,5
Carlos 6,3 6,4 8,2 9,0 7,2
José 7,9 9,7 7,5 8,0 6,0
Sonia 6,0 6,0 6,5 5,5 8,7
María 6,8 7,2 8,7 9,0 7,0
C1 C2 C3 C4 C5
Lucia 0,3231 1,7725 1,1988 -0,055 0,0036
Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234
Ines 1,0025 -0,5157 0,6289 0,5164 0,1429
Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625
Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234
Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253
Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131
Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174
Sonia -3,042 -1,2549 0,4488 -0,64 0,0379
Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777
Datos Componentes
11 de 54
ACP: componentes principales
Datos Componentes
12 de 54
C1 C2
Lucia 0,3231 1,7725
Pedro 0,6654 -1,6387
Ines 1,0025 -0,5157
Luis -3,1721 -0,2628
Andres -0,4889 1,3654
Ana 1,7086 -1,0217
Carlos 0,0676 1,4623
Jose 2,0119 -1,2759
Sonia -3,042 -1,2549
Maria 0,9239 1,3694
Matemá-ticas
Ciencias Español Historia Educación Física
Lucía 7,0 6,5 9,2 8,6 8,0
Pedro 7,5 9,4 7,3 7,0 7,0
Inés 7,6 9,2 8,0 8,0 7,5
Luis 5,0 6,5 6,5 7,0 9,0
Andrés 6,0 6,0 7,8 8,9 7,3
Ana 7,8 9,6 7,7 8,0 6,5
Carlos 6,3 6,4 8,2 9,0 7,2
José 7,9 9,7 7,5 8,0 6,0
Sonia 6,0 6,0 6,5 5,5 8,7
María 6,8 7,2 8,7 9,0 7,0
ACP: plano principal
Componentes
C1 C2
Lucia 0,3231 1,7725
Pedro 0,6654 -1,6387
Ines 1,0025 -0,5157
Luis -3,1721 -0,2628
Andres -0,4889 1,3654
Ana 1,7086 -1,0217
Carlos 0,0676 1,4623
Jose 2,0119 -1,2759
Sonia -3,042 -1,2549
Maria 0,9239 1,3694
13 de 54
ACP: punto de vista óptimo● Objetivo: encontrar el mejor plano
(subespacio) para ver la nube de puntos.
15 de 5415 de 5415 de 5415 de 54
ACP: representación de los individuos
Datos Componentes
27 de 54
Matemá-ticas
Ciencias Español Historia Educación Física
Lucía 7,0 6,5 9,2 8,6 8,0
Pedro 7,5 9,4 7,3 7,0 7,0
Inés 7,6 9,2 8,0 8,0 7,5
Luis 5,0 6,5 6,5 7,0 9,0
Andrés 6,0 6,0 7,8 8,9 7,3
Ana 7,8 9,6 7,7 8,0 6,5
Carlos 6,3 6,4 8,2 9,0 7,2
José 7,9 9,7 7,5 8,0 6,0
Sonia 6,0 6,0 6,5 5,5 8,7
María 6,8 7,2 8,7 9,0 7,0
C1 C2 C3 C4 C5
Lucia 0,3231 1,7725 1,1988 -0,055 0,0036
Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234
Ines 1,0025 -0,5157 0,6289 0,5164 0,1429
Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625
Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234
Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253
Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131
Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174
Sonia -3,042 -1,2549 0,4488 -0,64 0,0379
Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777
ACP: representación de los individuos
Matemá-ticas
Ciencias Español Historia Educación Física
Lucía 7,0 6,5 9,2 8,6 8,0
Pedro 7,5 9,4 7,3 7,0 7,0
Inés 7,6 9,2 8,0 8,0 7,5
Luis 5,0 6,5 6,5 7,0 9,0
Andrés 6,0 6,0 7,8 8,9 7,3
Ana 7,8 9,6 7,7 8,0 6,5
Carlos 6,3 6,4 8,2 9,0 7,2
José 7,9 9,7 7,5 8,0 6,0
Sonia 6,0 6,0 6,5 5,5 8,7
María 6,8 7,2 8,7 9,0 7,0
C1 C2 C3 C4 C5
Lucia 0,3231 1,1988
Pedro 0,6654 0,1455
Ines 1,0025 0,6289
Luis -3,1721 -0,382
Andres -0,4889 -0,8352
Ana 1,7086 -0,1271
Carlos 0,0676 -0,5062
Jose 2,0119 -0,5422
Sonia -3,042 0,4488
Maria 0,9239 -0,0293
28 de 54
ACP: representación de los individuos
29 de 54
C1 C2 C3 C4 C5
Lucia 0,3231 1,1988
Pedro 0,6654 0,1455
Ines 1,0025 0,6289
Luis -3,1721 -0,382
Andres -0,4889 -0,8352
Ana 1,7086 -0,1271
Carlos 0,0676 -0,5062
Jose 2,0119 -0,5422
Sonia -3,042 0,4488
Maria 0,9239 -0,0293
ACP: representación de las variables
C1 C2 C3 C4 C5
Lucia 0,3231 1,7725 1,1988 -0,055 0,0036Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234
Ines 1,0025 -0,5157 0,6289 0,5164 0,1429Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625
Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253
Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174
Sonia -3,042 -1,2549 0,4488 -0,64 0,0379Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777
35 de 54
ACP: representación de las variables
C1 C2 C3 C4 C5
Lucia 0,3231 1,7725Pedro 0,6654 -1,6387
Ines 1,0025 -0,5157Luis -3,1721 -0,2628
Andres -0,4889 1,3654Ana 1,7086 -1,0217
Carlos 0,0676 1,4623Jose 2,0119 -1,2759
Sonia -3,042 -1,2549Maria 0,9239 1,3694
36 de 54
Inercia explicada por los ejes
autovalor porcentaje de varianza porcentaje de varianza
acumulativaC1 2.893249673 57.8649935 57.86499C2 1.628650425 32.5730085 90.43800C3 0.346596049 6.9319210 97.36992C4 0.122612460 2.4522492 99.82217C5 0.008891393 0.1778279 100.00000
Análisis en componentes principales● Relaciones de dualidad:
● Equivalencia de los dos análisis:
45 de 54