tema 1 análisis exploratorio de datos...

38
Tema 1 An´ alisis exploratorio de datos multivariantes Jos´ e R. Berrendero Departamento de Matem´ aticas Universidad Aut´ onoma de Madrid

Upload: others

Post on 25-Jan-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

  • Tema 1Análisis exploratorio de datos multivariantes

    José R. Berrendero

    Departamento de MatemáticasUniversidad Autónoma de Madrid

  • Gorriones

    I Tras una fuerte tormenta en febrero de 1898, un grupo degorriones moribundos fueron llevados a la Universidad Brown(Rhode Island).

    I Alrededor de la mitad de los gorriones murieron. Se consideróla situación como una oportunidad de estudiar el efecto de laselección natural sobre los pájaros.

    I Se tomaron diversas medidas morfológicas, de las que seincluyen 5 en el fichero.

  • Variables

    Nombre variable Descripción

    TOT Longitud totalALA Extensión de las alasCAB Longitud del pico y la cabezaHUM Longitud del húmeroEST Longitud del esternón

    Observaciones:

    I Todas las variables se miden en mm.

    I El fichero contiene datos de 49 gorriones.

    I Los 21 primeros gorriones fueron los supervivientes.

  • Problemas de interés relacionados con estos datos

    I ¿Están las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?

    I ¿Hay diferencias significativas entre las observacionescorrespondientes a los supervivientes y a los que nosobrevivieron?

    I Si la respuesta es afirmativa, ¿es posible construir una funciónde las variables que separe bien los dos grupos?

    I ¿Es posible reducir la dimensión de los datos sin perder muchainformación?

  • Temario

    I Análisis exploratorio de datos multivariantesI Descripción numéricaI Descripción gráfica

    I Técnicas de análisis discriminanteI Discriminación lineal de Fisher

    I Técnicas de agrupaciónI Métodos jerárquicosI Métodos por división

    I Técnicas de reducción de la dimensiónI Análisis de componentes principalesI Análisis factorial

  • Bibliograf́ıa básica

    I Johnson, R.A. y Wichern, D.W. (1992). Applied MultivariateStatistical Analysis. Prentice–Hall.

    I Lattin, J.M., Carroll, J.D. y Green, P.E. (2003). Analyzingmultivariate data. Thomson Brooks/Cole.

    I Peña, D. (2002). Análisis de datos multivariantes. McGrawHill.

    Una bibliograf́ıa más amplia puede encontrarse en el programa dela página web de la asignatura

  • Lirios

    Código DescripciónCLASS Especie

    SL Longitud del sépaloSW Anchura del sépaloPL Longitud del pétaloPW Anchura del pétalo

    CLASS PL PW SL SWsetosa 5.1 3.5 1.4 0.2

    versicolor 7 3.2 4.7 1.4virginica 6.3 3.3 6 2.5

    En total hay 50 lirios de cada especie (es decir, la matriz de datoses 150× 4, si no tenemos en cuenta la variable que indica elnombre de la especie)

  • Problemas de interés relacionados con estos datos

    I ¿Están las variables relacionadas? Al aumentar una, ¿tiendena aumentar los valores de las otras?

    I ¿Hay diferencias significativas entre las observacionescorrespondientes a cada una de las especies?

    I Si la respuesta es afirmativa, ¿es posible construir una funciónde las variables que separe bien los tres grupos?

    I ¿Es posible reducir la dimensión de los datos sin perder muchainformación?

  • Liga española de fútbol 2005-2006Text2 1 / 1

    May 26, 2006 Crimson Editor

    Equipo G P GF GCBarcelona 25 6 80 35

    RMadrid 20 8 70 40Valencia 19 7 58 33Osasuna 21 12 49 43Sevilla 20 10 54 39

    Celta 20 14 45 33Villarreal 14 9 50 39Deportivo 15 13 47 45

    Getafe 15 14 54 49AtMadrid 13 12 45 37Zaragoza 10 12 46 51

    AthBilbao 11 15 40 46Mallorca 10 15 37 51

    Betis 10 16 34 51Espanyol 10 17 36 56

    RSociedad 11 20 48 65Racing 9 16 36 49Alavés 9 17 35 54Cádiz 8 18 36 52

    Málaga 5 24 36 68

  • Variables

    Nombre variable Descripción

    Equipo Nombre del equipoG Número de partidos ganadosP Número de partidos perdidosGF Goles a favorGC Goles en contra

    Observaciones:

    I El número de partidos empatados y el número de puntos sehan omitido puesto que son variables redundantes.

  • Problemas de interés relacionados con estos datos

    I ¿Están las variables relacionadas? Al variar una, ¿cómo vaŕıanlos valores de las otras?

    I ¿Existen datos at́ıpicos?

    I ¿Es razonable suponer un modelo normal multivariante?

    I ¿Es posible reducir la dimensión de los datos sin perder muchainformación?

    I ¿Se pueden establecer grupos homogéneos de equipos?

  • Descripción univariante: longitud del sépalo

    Frecuencias

    Estadísticos

    SL

    1500

    5,8435,800,8281,6857

    4,37,9

    5,1005,8006,400

    VálidosPerdidos

    N

    MediaMedianaDesv. típ.VarianzaMínimoMáximo

    255075

    Percentiles

    Página 1

    Gráfico

    8,07,06,05,04,0

    sl

    25

    20

    15

    10

    5

    0

    Frecuencia

    Media =5,843Desviación típica=0,8281N =150

    &[PageTitle]

    Página 1

  • Descripción univariante: anchura del sépalo

    Estadísticos

    SW

    1500

    3,0543,000,4336,1880

    2,04,4

    2,8003,0003,300

    VálidosPerdidos

    N

    MediaMedianaDesv. típ.VarianzaMínimoMáximo

    255075

    Percentiles

    Página 1

    4,54,03,53,02,52,0

    sw

    40

    30

    20

    10

    0

    Frecuencia

    Media =3,054Desviación típica=0,4336N =150

    &[PageTitle]

    Página 1

  • Interpretación de la covarianza

  • Dimensiones del sépalo: covarianza y correlación

    Covarianzas

    Longitud del sepalo Anchura del sepaloLongitud del sepalo 0.68569351 -0.04243400Anchura del sepalo -0.04243400 0.18997942

    Correlaciones

    Longitud del sepalo Anchura del sepaloLongitud del sepalo 1.0000000 -0.1175698Anchura del sepalo -0.1175698 1.0000000

  • Dimensiones del sépalo: diagrama de dispersiónGráfico

    4,54,03,53,02,52,0

    sw

    8,0

    7,0

    6,0

    5,0

    4,0

    sl

    &[PageTitle]

    Página 1

  • Diagrama de cajas

    4. Distancia de Mahalanobis: D2(x, x̄) = (x − x̄)′S−1(x − x̄). Se utiliza como herramientade clasificación y para detectar observaciones at́ıpicas. Puede considerarse como una versión“modificada” de la distancia eucĺıdea (x− x̄)′(x− x̄) que incorpora la información que da S.

    5. Muestra y población. La distribución normal: En muchos casos es razonable suponer quelos datos son el resultado de extraer una muestra de una población infinita o, expresado en otrostérminos, constituyen una muestra de observaciones independientes de una variable aleatoria(v.a.) x. Recordemos algunas propiedades de las v.a. p-dimensionales: Si a ∈ Rp entoncesE(a′x) = a′µ, V (a′x) = a′Σa, donde E(.) y V (.) denotan, respectivamente, la media y varianza“poblacionales” y µ y Σ representan el vector de medias y la matriz de covarianza poblacionalesde x. Análogamente, si A es una matriz m × p, el vector de medias (poblacionales) de Ax esAµ y la matriz de covarianzas poblacional de Ax es AΣA′.

    Para motivar mejor algunas técnicas de análisis de datos, y también para deducir muchaspropiedades teóricas interesantes, se supone frecuentemente que la variable x tiene distribuciónnormal. Esta distribución queda totalmente especificada por los valores de µ y Σ.

    Diagrama de cajas Diagrama de estrellas

    6. Algunos gráficos: • Diagrama de cajas: Ver figura. • Diagrama de estrellas: Paracada dato p-variante se dibuja una estrella de p puntas o brazos. La longitud de cada brazode la estrella se determina a partir del valor, previamente “reescalado” de la correspondientevariable. Por ejemplo, se puede reescalar cada variable de manera que su valor máximo sobrelos n individuos sea 1 y el mı́nimo sea 0.

    • Diagrama de dispersión: “Matriz de diagramas” obtenida al representar los datos comopuntos en el plano, considerando sólo dos variables (para todos los posibles pares de variables).

    2

  • Dimensiones del sépalo: diagrama de cajas

    setosa versicolor virginica

    4.5

    6.0

    7.5

    Longitud del sepalo por especies

    setosa versicolor virginica

    2.0

    3.0

    4.0

    Ancho del sepalo por especies

  • Dimensiones del sépalo de la especie setosa

    2.5 3.0 3.5 4.0

    4.5

    5.0

    5.5

    Especie "Setosa"

    Ancho del sepalo

    Long

    itud

    del s

    epal

    o

  • Lirios: matriz de diagramas de dispersión

    Longitud.Sepalo

    2.0 3.0 4.0 0.5 1.5 2.5

    4.5

    5.5

    6.5

    7.5

    2.0

    3.0

    4.0

    Ancho.Sepalo

    Longitud.Petalo

    12

    34

    56

    7

    4.5 5.5 6.5 7.5

    0.5

    1.5

    2.5

    1 2 3 4 5 6 7

    Ancho.Petalo

  • Lirios: matriz de diagramas de dispersión

    longitud del sepalo

    2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5

    4.5

    5.5

    6.5

    7.5

    2.0

    3.0

    4.0 anchura del sepalo

    longitud del petalo

    12

    34

    56

    7

    4.5 5.5 6.5 7.5

    0.5

    1.5

    2.5

    1 2 3 4 5 6 7

    anchura del petalo

  • Lirios: gráfico de estrellas

    AS

    LS

    AP

    LP

  • Lirios: matrices de covarianzas y de correlaciones

    Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo

    Longitud.Sepalo 0.68569351 -0.04243400 1.2743154 0.5162707

    Ancho.Sepalo -0.04243400 0.18997942 -0.3296564 -0.1216394

    Longitud.Petalo 1.27431544 -0.32965638 3.1162779 1.2956094

    Ancho.Petalo 0.51627069 -0.12163937 1.2956094 0.5810063

    Longitud.Sepalo Ancho.Sepalo Longitud.Petalo Ancho.Petalo

    Longitud.Sepalo 1.0000000 -0.1175698 0.8717538 0.8179411

    Ancho.Sepalo -0.1175698 1.0000000 -0.4284401 -0.3661259

    Longitud.Petalo 0.8717538 -0.4284401 1.0000000 0.9628654

    Ancho.Petalo 0.8179411 -0.3661259 0.9628654 1.0000000

  • Fútbol: Matriz de diagramas de dispersión

    G

    10 15 20

    ●●

    ●● ●

    ●●●

    ●●●●●

    ●●●

    ●●

    ●●●

    ●● ●

    ●●

    ●●●●

    ●●●

    35 45 55 65

    510

    1520

    25●

    ●●

    ●●●

    ●● ●

    ●●

    ●● ●●

    ● ●●

    1015

    20

    ●●

    ●●

    ●●

    ●●●●

    ●●

    P

    ●●

    ●●

    ●●

    ●●●

    ●●●

    ●●

    ●●

    ● ●

    ● ●●

    ●●

    ●●

    ●●

    ●●●●

    ●●●●

    ●●

    ●●

    ●●

    ●●

    ●●● ●

    GF

    4050

    6070

    80●

    ●●

    ● ●

    ●●●

    ● ●● ●

    5 10 15 20 25

    3545

    5565

    ●●

    ●●

    ●●

    ●●

    40 50 60 70 80

    ●●

    ●●

    GC

  • Fútbol: Gráficos de estrellas

    1 2 3 4

    5 6 7 8

    9 10 11 12

    13 14 15 16

    17 18 19 20

    G

    P

    GF

    GC

  • Fútbol: Medidas descriptivas numéricas

    Estadísticos descriptivos

    13,750 5,3986 2013,750 4,4824 2046,800 12,1508 2046,800 9,7581 20

    GPGFGC

    MediaDesviación

    típica N

    Correlaciones

    1 -,812 ,839 -,793. ,000 ,000 ,000

    20 20 20 20-,812 1 -,776 ,878,000 . ,000 ,000

    20 20 20 20,839 -,776 1 -,577,000 ,000 . ,008

    20 20 20 20-,793 ,878 -,577 1,000 ,000 ,008 .

    20 20 20 20

    Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N

    G

    P

    GF

    GC

    G P GF GC

    Página 1

  • Lirios: distancias de Mahalanobis

    Distancias de Mahalanobis

    Frec

    uenc

    ias

    0 2 4 6 8 10 12 14

    0.00

    0.10

    0.20

    0 2 4 6 8 10 12

  • Normal univariante: densidad

    −3 −2 −1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    0.8

    x

    y2

    ¿Cuál de las tres corresponde a la normal estándar?

  • Normal multivariante: densidad

    −2

    −1

    0

    1

    2

    −2

    −1

    0

    1

    20

    1

    2

    3

    4

    5

    6

  • Densidad de la normal multivariante

    µ = (0, 0)′ y Σ =

    (1 00 1

    )

    −2

    −1

    0

    1

    2

    −2

    −1

    0

    1

    20

    1

    2

    3

    4

    5

    6

    7

  • µ = (0, 0)′ y Σ =

    (1 0.8

    0.8 1

    )

    −2 −1.5−1 −0.5

    0 0.51 1.5

    2

    −2

    −1

    0

    1

    20

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

  • µ = (0, 0)′ y Σ =

    (1 −0.8−0.8 1

    )

    −2 −1.5−1 −0.5

    0 0.51 1.5

    2

    −2

    −1

    0

    1

    20

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

  • Ejemplos de datos normales bidimensionales

    −5 0 5

    −6

    −2

    02

    4

    −4 −2 0 2 4

    −4

    −2

    02

    4

    −4 −2 0 2 4

    −3

    −1

    01

    23

    −2 −1 0 1 2

    −2

    −1

    01

    Σ =

    (1 00 1

    )Σ =

    (1 0.7

    0.7 1

    )Σ =

    (10 00 1

    )Σ =

    (5 00 1

    )

  • Distancias de Mahalanobis para datos normales

    −2 −1 0 1 2

    −2−1

    01

    0 2 4 6 8

    0.00

    0.10

    0.20

    0.30

    −2 −1 0 1 2

    −3−1

    01

    23

    0 2 4 6 8 10

    0.0

    0.1

    0.2

    0.3

    0.4

  • Distancias de Mahalanobis para datos normales

    Estad́ısticos descriptivos para D2i en el segundo ejemplo:

    Min. 1st Qu. Median Mean 3rd Qu. Max.

    0.007255 0.565100 1.314000 1.980000 2.710000 9.735000

    Desviacion tipica: 1.920563

    Comparación con la densidad χ2:

    0 2 4 6 8 10

    0.0

    0.1

    0.2

    0.3

    0.4

  • Fútbol: distancias de Mahalanobis

    Hist. MahalanobisFr

    eque

    ncy

    0 2 4 6 8 10 12

    02

    46

    0 2 4 6 8 10

    Cajas Mahalanobis

  • I La forma del histograma coincide con lo que se espera bajonormalidad (distribución χ2)

    I La distancia de Mahalanobis media es 3.8 y la varianza de lasdistancias es 9.03

    I La mayor distancia es 10.90 y corresponde al Celta.

    I La menor distancia es 0.22 y corresponde al Deportivo