análisis de datos y estadística avanzada -...
TRANSCRIPT
Análisis de datos y Estadística Avanzada
Máster Interuniversitario de Astrofísica UCM+UAM
Tema 6: Introducción a la estadística multivariante
Javier Gorgas y Nicolás Cardiel
Departamento de Astrofísica y Ciencias de la Atmósfera
Facultad de Ciencias Físicas
Universidad Complutense de Madrid
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 1Curso 2010/2011 1 / 43
Esquema
1 Introducción
¿Qué es el análisis multivariante?
¿Por qué es necesario?
Casos típicos
Técnicas multivariantes
2 Trabajo con datos multivariantes
Tratamiento matricial de los datos multivariantes
El problema de la normalidad de los datos
3 Regresión lineal múltiple
Tipos de regresión lineal múltiple
Regresión lineal múltiple univariada
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 2Curso 2010/2011 2 / 43
Introducción ¿Qué es el análisis multivariante?
¿Qué es el análisis multivariante?
Es una colección de métodos que permiten tratar problemas muy
diversos en los que diferentes propiedades se miden en un
conjunto específico de objetos.
propiedad #1 propiedad #2 . . . . . . propiedad #p
objeto #1 x11 x12 . . . . . . x1p
objeto #2 x21 x22 . . . . . . x2p
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
objeto #n xn1 xn2 . . . . . . xnp
Nota: a las propiedades también las llamaremos muchas veces variables.
Para el trabajo dentro del área del análisis multivariante veremos que resulta ex-
tremadamente útil utilizar álgebra matricial.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 3Curso 2010/2011 4 / 43
Introducción ¿Por qué es necesario?
Necesidad del anális multivariante
En astrofísica clásicamente el esfuerzo se focalizaba en estudiar
comportamientos bivariados entre pares de variables, imponiendo
sistemas subjetivos de clasificación de objetos. Cuando el
número de objetos y propiedades no es muy grande (2 ó 3) es
posible “visualizar” las relaciones entre las variables. Pero cuando
dicho número es mayor, esta técnica es insuficiente. De forma
práctica hoy en día se llega a trabajar con valores de n y/o p como
100, 1000, o incluyo superiores.
En la práctica las variables analizadas están correlacionadas (de
lo contrario no hay nada interesante que estudiar), de modo que
su análisis individual o por parejas no es suficiente para tener un
conocimiento preciso de la información contenida en las medidas.
SOLUCIÓN: análisis simultáneo de todos los objetos y
propiedades.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 4Curso 2010/2011 6 / 43
Introducción ¿Por qué es necesario?
¿Qué ocurren cuando no se hacen las cosas bien?
De manera ingenua uno puede
comenzar realizando contrastes de
hipótesis sobre las medias de las
diferentes variables. Sin embargo,
cuando las variables están cor-
relacionadas (que es lo realmente
interesante) ¡las técnicas univari-
antes fallan!
La alternativa es utilizar contrastes
de hipótesis multivariantes.
En el ejemplo de la figura, la utilización de los contrastes univariantes nos indica que el punto de color rojo se encuentra dentro
de los intervalos de confianza de cada variable individual, mientras que el punto verde está dentro del intervalo de confianza para
la variable y1 pero no para la y2. Como las variables están correlacionadas, es erróneo deducir que el punto rojo está dentro del
intervalo de confianza de las medias de ambias variables de forma simultánea. También es erróneo dejar fuera de dicho intervalo
al punto verde.
El análisis multivariante permite, además, garantizar que estamos utilizando el mismo nivel de significación α (probabilidad de
equivocarnos al rechazar la hipótesis nula) en todas las variables.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 5Curso 2010/2011 7 / 43
Introducción Casos típicos
Situaciones reales
Posibilidades (entre otras):
1 Estudiar una muestra única con varias variables medidas en cada
objeto. Ejemplo: medidas fotométricas (colores, radios efectivos,
elipticidades, coeficientes de asimetría, presencia de bandas de polvo,
emisión de gas,. . . ) de las galaxias elípticas del Cúmulo de Coma.
2 Estudiar una muestra única con dos conjuntos de variables. Ejemplo:
medidas fotométricas, por un lado, y espectroscópicas, por otro
(características espectrales en absorción o emisión), en las galaxias
elípticas de Coma. ¿Qué relación hay entre los dos conjuntos de
variables?
3 Estudiar dos o más muestras con uno, dos o más conjuntos de varias
variables. Ejemplo: ídem con galaxias de Coma, Fornax y campo. ¿En
qué se parecen/diferencian las galaxias en distintos entornos?
Veamos qué técnicas multivariantes pueden utilizarse en cada caso.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 6Curso 2010/2011 9 / 43
Introducción Técnicas multivariantes
Caso 1: Una muestra con varias propiedades
¿Qué hacer?
Testear la correlación entre las variables. Técnica: contrastes de
hipótesis sobre la matriz de covarianza.
Determinar agrupaciones entre los datos. Técnica: análisis de
agrupación.
Buscar un conjunto reducido de combinaciones lineales de las
variables originales que resuman la variación de los datos
(información contenida en las medidas). Técnica: análisis de
componentes principales. Es la única forma de abordar un
conjunto grande de medidas multivariantes. Dificultad: interpretar
las componentes principales.
Expresar las variables originales como un conjunto de funciones
lineales de factores que expliquen la información de los datos y la
relación entre las mismas. Técnica: análisis de factores.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 7Curso 2010/2011 11 / 43
Introducción Técnicas multivariantes
Reduciendo la dimensionalidad
Aunque el análisis de componentes principales parece similar al
análsis de factores, estas técnicas difieren en varios aspectos:
1 En el análisis de factores las variables se expresan como
combinaciones lineales de factores, mientras que las componentes
principales son combinaciones lineales de las variables.
2 El análisis de componentes principales se focaliza en minimizar la
varianza de las variables. El análisis de factores trata de explicar las
covarianzas (correlaciones) entre las variables.
3 Las componentes principales están unívocamente definidas, mientras
que los factores están sujetos a rotaciones arbitrarias (lo cual puede
permitir su interpretación).
4 Si se cambia el número de factores, ¡sus valores cambian! Las
componentes principales son las que son.
Si nuestro interés es meramente reducir la dimensionalidad (requisito para
otras técnicas multivariantes) y no la interpretación, la técnica de las compo-
nentes principales suele ser preferible (veremos esta técnica más adelante).
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 8Curso 2010/2011 12 / 43
Introducción Técnicas multivariantes
Caso 2: Una muestra con dos conjuntos de propiedades
¿Qué hacer?
Determinar el número, tamaño, y naturaleza de las relaciones
entre los dos conjuntos de variables. Técnica: correlación
canónica (cuantificación de la correlación lineal).
Determinar un modelo que prediga un conjunto de propiedades a
partir de los valores del otro conjunto de propiedades. Técnica:
regresión lineal múltiple multivariante.
Extensión a modelos de regresión multivariante no lineales.
Técnica: redes neuronales.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 9Curso 2010/2011 13 / 43
Introducción Técnicas multivariantes
Caso 3: Dos o más muestras con varias propiedades
¿Qué hacer?
Comparar las medias de las variables entre las muestras.
Técnica: Hotelling’s T2-test, análisis de varianza multivariante.
Encontrar la combinación lineal de las variables que mejor
discrimine las diferentes muestras. Técnica: análisis
discriminante.
Encontrar una función de las variables que ubiquen
adecuadamente a nuevos objetos en los distintos grupos
definidos por observaciones previas. Técnica: análisis de
clasificación. Esta técnica difiere del análisis de agrupación
(discutida en el Caso 1) en que en esta última el número de
grupos no es conocido inicialmente, mientras que en el análisis de
clasificación dicho número está fijado (el número de muestras).
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 10Curso 2010/2011 14 / 43
Trabajo con datos multivariantes Tratamiento matricial de los datos multivariantes
Para el trabajo dentro del área del análisis multivariante resulta extremadamente útil
utilizar álgebra matricial.
propiedad #1 propiedad #2 . . . . . . propiedad #p
objeto #1 y11 y12 . . . . . . y1p
objeto #2 y21 y22 . . . . . . y2p
.
.
....
.
.
....
.
.
....
objeto #i yi1 yi2 . . . . . . yip
.
.
....
.
.
....
.
.
....
objeto #n yn1 yn2 . . . . . . ynp
medias y1 y2 . . . . . . yp
Podemos definir y como un vector aleatorio con p variables (propiedades) medidas en
cada objeto. Si tenemos n objetos en la muestra, las observaciones pueden escribirse
como y1, y2,. . . ,yn, donde
yi=
0
BBB@
yi1
yi2...
yip
1
CCCA, Y =
0
BBB@
y�1
y�2...
y�n
1
CCCA=
0
BBB@
y11 y12 . . . . . . y1p
y21 y22 . . . . . . y2p
.
.
....
.
.
....
.
.
.
yn1 yn2 . . . . . . ynp
1
CCCA.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 11Curso 2010/2011 16 / 43
Trabajo con datos multivariantes Tratamiento matricial de los datos multivariantes
Podemos definir algunas matrices auxiliares (ejemplo para n = 3)
I =
0
@1 0 00 1 00 0 1
1
A , J =
0
@1 1 11 1 11 1 1
1
A , j =
0
@111
1
A , O =
0
@0 0 00 0 00 0 0
1
A , 0 =
0
@000
1
A
El trabajo se simplifica notablemente utilizando álgebra de matrices.
Vector media muestral:
y =1n
nX
i=1
yi=
0
BBB@
y1y2...
yp
1
CCCA=
1n
Y�j.
Vector media poblacional:
E(y) = E
0
BBB@
y1y2...
yp
1
CCCA=
0
BBB@
E(y1)E(y2)
.
.
.
E(yp)
1
CCCA=
0
BBB@
µ1µ2...
µp
1
CCCA= µ.
Por tanto, el vector y es un estimador insesgado del vector µ.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 12Curso 2010/2011 17 / 43
Trabajo con datos multivariantes Tratamiento matricial de los datos multivariantes
Matriz muestral de covarianzas (tamaño p× p):
S =
0
BBB@
s11 s12 . . . s1p
s21 s22 . . . s2p
.
.
.
.
.
.
.
.
.
.
.
.
sp1 sp2 . . . spp
1
CCCA=
1n− 1
»Y�Y − Y
�„
1n
J
«Y
–=
1n− 1
Y�„
I −1n
J
«Y.
donde
sjk =1
n− 1
nX
i=1
(yij − yj)(yik − y
k) =
1n− 1
nX
i=1
yijyik − nyjy
k
!, con
j = 1, . . . , p
k = 1, . . . , p
Matriz poblacional de covarianzas (tamaño p× p):
Σ = cov(y) =
0
BBB@
σ11 σ12 . . . σ1p
σ21 σ22 . . . σ2p
.
.
.
.
.
.
.
.
.
.
.
.
σp1 σp2 . . . σpp
1
CCCA= E[(y−µ)(y−µ)�] = E(yy
�)−µµ�.
Como E(sjk) = σjk, ∀j, k, la matriz muestral de covarianzas S es un estimador insesgado de Σ
E(S) = Σ.
Al igual que en el caso univariado, es el promedio de todos los posibles valores de S lo que es
igual a Σ.
El problema de las covarianzas es que dependen de las unidades utilizadas para cuantificar las
propiedades. Solución: las matrices de correlación.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 13Curso 2010/2011 18 / 43
Trabajo con datos multivariantes Tratamiento matricial de los datos multivariantes
Matriz muestral de correlación (tamaño p× p):
R =
0
BBB@
1 r12 . . . r1p
r21 1 . . . r2p
.
.
.
.
.
.
.
.
.
.
.
.
rp1 rp2 . . . 1
1
CCCA= D
−1s
SD−1s
,
donde
Ds = diag(√
s11,√
s22, . . . ,√
spp).
Matriz poblacional de correlación (tamaño p× p):
Pρ =
0
BBB@
1 ρ12 . . . ρ1p
ρ21 1 . . . ρ2p
.
.
.
.
.
.
.
.
.
.
.
.
ρp1 ρp2 . . . 1
1
CCCA,
donde
ρjk =σjk
σjσk
.
Notar la similitud entre la expresión anterior (poblacional) y la fórmula para el coeficiente de
correlación lineal (muestral) que vimos en el Tema 4,
r =Cov
sxsy
.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 14Curso 2010/2011 19 / 43
Trabajo con datos multivariantes Tratamiento matricial de los datos multivariantes
Ejemplo numérico (p = 3 propiedades, n = 10 objetos)
y1 y2 y3
1 35 3.5 2.80
2 35 4.9 2.70
3 40 30.0 4.38
4 10 2.8 3.21
5 6 2.7 2.73
6 20 2.8 2.81
7 35 4.6 2.88
8 35 10.9 2.90
9 35 8.0 3.28
10 30 1.6 3.20
y =1n
Y�j =
0
@28.1007.1803.089
1
A ,
S =
0
@140.54 49.68 1.9449.68 72.25 3.681.94 3.68 0.25
1
A ,
Ds =
0
@11.855 0.0 0.0
0.0 8.500 0.00.0 0.0 0.500
1
A ,
R = D−1s SD
−1s =
0
@1.000 0.493 0.3270.493 1.000 0.8650.327 0.865 1.000
1
A .
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 15Curso 2010/2011 20 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
Problema
La mayor parte del tratamiento multivariante parte de la base de que los datos siguen
una distribución normal multivariada. Esto se debe a que, al contrario de lo que
sucede en el caso univariado, no resulta trivial ordenar (poner “rango”) a observa-
ciones multivariantes. Por ello no existen tantos procedimientos no paramétricos para
el tratamiento de datos multivariantes.
De ahí la necesidad de establecer la normalidad de los datos antes de aplicar la mayor
parte de las técnicas multivariantes.
Chequear distribuciones individuales no es suficiente, pero. . .
Cuando tenemos varias variables, chequear que de forma individual siguen una dis-
tribución normal no es suficiente dado que:
1 Las variables suelen estar correlacionadas (de lo contario, ¡qué aburrido!).
2 La normalidad individual de cada variable no garantiza la normalidad conjunta
de todas ellas.
Por otro lado, una distribución normal multivariada garantiza la normalidad de las dis-
tribuciones individuales. Por tanto, si una sóla variable no es normal, tampoco lo será
la distribución conjunta→ De ahí que sea útil chequearlo.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 16Curso 2010/2011 22 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
Una forma muy sencilla en R de ver si unos datos siguen una distribución normal es utilizar un
quantile-quantile plot. Generemos primero una secuencia de números que sigan una
distribución normal:
> x <- rnorm(1000,1.5,4.0) ←−1000 valores con µ = 1.5 y σ = 4.0> hist(x) ←−dibujamos histograma
> qqnorm(x) ←−dibujamos quantile-quantile plot> qqline(x,col="red") ←−dibujamos una línea que pasa por el primer y tercer cuartil
> shapiro.test(x) ←−calculamos un test de normalidad
Shapiro-Wilk normality test
data: xW = 0.999, p-value = 0.8486
Histogram of x
x
Frequency
-15 -10 -5 0 5 10 15
050
100
150
-3 -2 -1 0 1 2 3
-10
-50
510
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 17Curso 2010/2011 24 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
Ahora veamos qué ocurre cuando los datos no siguen una distribución normal:
> x <- exp(rnorm(100,1.5,4.0)) ←−100 valores
> hist(x) ←−dibujamos histograma
> qqnorm(x) ←−dibujamos quantile-quantile plot> qqline(x,col="red") ←−dibujamos una línea que pasa por el primer y tercer cuartil
> shapiro.test(x) ←−calculamos un test de normalidad
Shapiro-Wilk normality test
data: xW = 0.0565, p-value = 2.2e-16
Histogram of x
x
Frequency
0 5000 10000 15000 20000
020
4060
80
-2 -1 0 1 2
05000
10000
15000
20000
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 18Curso 2010/2011 26 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
Distribución normal univariada
f (y) =1√
2π√
σ2exp−(y−µ)2/2σ2
Se dice que y es N(µ, σ2)←esto es diferente a otras notaciones donde se usa N(µ, σ)
Distribución normal multivariada
f (y) =1
(√
2π)p|Σ|1/2exp−(y−µ)�Σ−1
(y−µ)/2,
donde y y µ son los vectores (columna) correspondientes a las variables y las medias,
p es el número de variables, y Σ es la matriz (p× p) de covarianzas
Σ = E[(y− µ)(y− µ)�].
|Σ| es una varianza generalizada de la población. Se dice entonces que y es Np(µ,Σ).
El término (y− µ)2/σ2 = (y− µ)(σ2)−1(y− µ) en el exponente de la normal univariada mide la
distancia cuadrática entre y y µ en unidades de la desviación estándar σ. De forma análoga, en la
expresión multivariante el término (y−µ)�Σ−1(y−µ), mide la distancia cuadrática generalizada
entre y y µ (o distancia de Mahalanobis).
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 19Curso 2010/2011 27 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
|Σ| es una varianza generalizada de la población
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 20Curso 2010/2011 28 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
Algunas propiedades importantes de la normal multivariada
1 Normalidad de la combinación lineal de variables de y. Si a es un vector (columna) de
constantes, a�y = a1y1 + a2y2 + . . . + apyp es una normal univariada.
Si y es Np(µ, Σ), entonces a�y es N(a
�y, a
�Σa).
Si A es una matriz (q× p) de constantes y de rango q (con q ≤ p), entonces las q
combinaciones lineales en Ay siguen una distribución normal multivariada.
Si y es Np(µ, Σ), entonces Ay es Nq(Ay, AΣA�).
2 Tipificación de variables. Podemos obtener un vector tipificado utilizando
z = (Σ1/2)−1(y−µ).
De esta forma
si y es Np(µ, Σ), entonces z es Np(0, I),
donde I es la matriz identidad (ceros en todos los elementos salvo en la diagonal, donde
todos los elementos son 1).
3 Distribución Chi-cuadrado. A partir de la propiedad anterior,
si y es Np(µ, Σ), entonces (y−µ)�Σ−1(y−µ) es χ2p.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 21Curso 2010/2011 29 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
Algunas propiedades importantes de la normal multivariada
4 Normalidad de las distribuciones marginales. Si particionamos y, µ y Σ
y =
„y1y2
«, µ =
„µ1µ2
«, Σ =
„Σ11 Σ12Σ21 Σ22
«,
donde y1 y µ1 son (r × 1) y Σ11 es (r × r), podemos ver que
si y es Np(µ, Σ), entonces y1 es Nr(µ1, Σ11).
Como caso particular tenemos que
si y es Np(µ, Σ), entonces yj es N(µj, σjj).
En las siguientes propiedades asumiremos la partición en dos subvectores y y x, donde y es
(p× 1) y x es (q× 1) (o x es un conjunto nuevo de variables adicionales que deseamos comparar
con y), es decir
E
„y
x
«=
„µ
y
µx
«=, cov
„y
x
«=
„Σyy Σyx
Σxy Σxx
«.
5 Independencia. Los subvectores y y x son independientes si Σyx = O.
Dos variables individuales yj y yk son independientes si σjk = 0. Notar que esto no es
cierto para muchas variables aleatorias no normales.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 22Curso 2010/2011 30 / 43
Trabajo con datos multivariantes El problema de la normalidad de los datos
Algunas propiedades importantes de la normal multivariada
6 Suma y resta de vectores independientes. Si tanto y como x tienen el mismo tamaño
(ambos p× 1) y son independientes, entonces
y + x es Np(µy+ µ
x, Σyy + Σxx),
y− x es Np(µy−µ
x, Σyy + Σxx).
7 Distribuciones condicionadas. Si y y x no son independientes, entonces Σyx �= O y la
distribución de y dado x, f (y|x), es una normal multivariada con
E(y|x) = µy+ ΣyxΣ−1
xx(x−µ
x),
cov(y|x) = Σyy −ΣyxΣ−1xx
Σxy.
En el caso particular de la normal bivariada, f (y|x) es normal univariada con
E(y|x) = µy +σyx
σ2x
(x− µx), var(y|x) = σ2y−
σ2yx
σ2x
,
donde σyx/σ2x
es lo que en el tema de regresión lineal simple llamábamos coeficiente de
regresión de y sobre x. Por ello, en el caso multivariado, a la matriz ΣyxΣ−1xx
se la conoce
como matriz de los coeficientes de regresión (dado que relaciona E(y|x) con x).
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 23Curso 2010/2011 31 / 43
Regresión lineal múltiple Tipos de regresión lineal múltiple
Tipos de regresión lineal
La regresión lineal busca relaciones entre una o más variables y
(variables respuesta o dependientes) y una o más variables x
(variables independientes o predictoras). En este sentido conviene
distinguir:
1 Regresión lineal simple: una y y una x (ver Tema 4).
2 Regresión lineal múltiple: una y y varias x’s. También suele
denominarse regresión múltiple univariada. Un caso muy sencillo
sería
y = β0 + β1x1 + β2x2,
que no es otra cosa que la ecuación de un plano en un espacio
tridimensional euclídeo.
3 Regresión lineal múltiple multivariada: varias y’s y varias x’s.
En lo que queda de tema nos vamos a concentrar exclusivamente en
el caso 2.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 24Curso 2010/2011 33 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
¡Modelo lineal incluso para ajuste polinómico!
Cuando se habla de modelo de regresión lineal múltiple, típicamente
uno imagina una relación del tipo
µY|x1,x2,...,xq= β0 + β1x1 + β2x2 + . . .βqxq.
Sin embargo, también estamos ante un caso de regresión lineal
múltiple cuando q = 1 pero buscamos un modelo de regresión
polinomial
µY|x = β0 + β1x + β2x2 + . . .βrx
r.
Los estadísticos se refieren a un modelo lineal como aquél en el cual
los parámetros aparecen linealmente, sin importar cómo entra la
variable (o variables) independientes en el modelo.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 25Curso 2010/2011 35 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
El modelo general, suponiendo n observaciones y q variables independientes, es
y1 = β0 + β1x11 + β2x12 + . . . + βqx1q + �1
y2 = β0 + β1x21 + β2x22 + . . . + βqx2q + �2
.
.
....
yn = β0 + β1xn1 + β2xn2 + . . . + βqxnq + �n
donde β0, β1, . . . , βq son los coeficientes de regresión (asumiendo n > q + 1), y �i son
incertidumbres aleatorias.
Se hacen, además una serie de hipótesis adicionales
1 E(�i) = 0, ∀i = 1, 2, . . . , n. Es decir, el modelo es lineal y no hacen falta términos
extra; cualquier variación adicional de y es aleatoria e impredecible.
2 var(�i) = σ2, ∀i = 1, 2, . . . , n.
3 cov(�i, �j) = 0, ∀i �= j. Es decir, las incertidumbres no están correlacionados.
Las hipótesis anteriores pueden entonces reescribirse como
1 E(yi) = β0 + β1xi1 + β2xi2 + . . . + βqxiq, i = 1, 2, . . . , n.
2 var(yi) = σ2, i = 1, 2, . . . , n.
3 cov(yi, yj) = 0, ∀i �= j.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 26Curso 2010/2011 36 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
Utilizando ahora notación matricial
0
BBB@
y1
y2...
yn
1
CCCA=
0
BBB@
1 x11 x12 . . . x1q
1 x21 x22 . . . x2q
.
.
....
.
.
....
1 xn1 xn2 . . . xnq
1
CCCA
0
BBB@
β0
β1...
βq
1
CCCA+
0
BBB@
�1
�2...
�n
1
CCCA
o lo que es lo mismo, y = Xβ + �.
Nuestro objetivo es estimar los coeficientes de regresión β mediante b. Sabemos que
para cada observación (xi1, xi2, . . . , xiq; yi) se verifica
yi = β0 + β1xi1 + β2xi2 + . . . + βqxiq + �i,
o
yi = b0 + b1xi1 + b2xi2 + . . . + bqxiq + ei,
donde �i y ei son las incertidumbres aleatorias y residuales, respectivamente, asoci-
adas con la respuesta yi.
La estimación de b = (b0 b1 . . . bq)� se realiza por el método de mínimos cuadrados,
minimizando la cantidad SEE (Sum of Squares of Errors)
SSE =nX
i=1
e2i =
nX
i=1
(yi − b0 − b1xi1 − b2xi2 − . . .− bqxiq)2.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 27Curso 2010/2011 37 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
Para minimizar SSE =P
n
i=1 e2i =
Pn
i=1(yi − b0 − b1xi1 − b2xi2 − . . .− bqxiq)2, uno puede
tomar derivadas respecto a bj e igualar a cero. Puede demostrarse que la solución que
se obtiene es equivalente a
b = (X�X)−1
X�y.
Se asume que X�X no es singular, lo cual debe ser cierto en condiciones normales si
n > q + 1 y ninguna xj es una combinación lineal de las demás x’s.
Puede demostrarse que para la ecuación de regresión lineal
y = Xβ + �,
una estimación insesgada de σ2viene dada por el cuadrado medio residual
s2 =
SSE
n− q− 1=
1n− q− 1
(y− Xb)�(y− Xb).
Es posible realizar contrastes de hipótesis sobre el resultado de la regresión. Aunque
existen muchos tests, en lo que sigue mostraremos algunos casos en los que se
asumirá que y sigue una distribución normal multivariada Nn(Xβ, σ2I).
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 28Curso 2010/2011 38 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
Modelo corregido de medias
A veces resultar útil realizar la regresión restando previamente los valores promedios a los datos,
es decir
yi = α + β1(xi1 − x1) + β2(xi2 − x2) + . . . βq(xiq − xq) + �i,
donde
α = β0 + β1x1 + β2x2 + . . . + βqxq.
Puede comprobarse, que para estimar
β1 =`
β1 β2 . . . βq
´�,
podemos utilizar la matriz
Xc =
0
BBB@
x11 − x1 x12 − x2 . . . x1q − xq
x21 − x1 x22 − x2 . . . x2q − xq
.
.
.
.
.
.
.
.
.
xn1 − x1 xn2 − x2 . . . xnq − xq
1
CCCA,
y estimar β1 como
b1 = (X�cXc)
−1X�cy,
y β0 como
b0 = y−„
1n− 1
X�cy
«� „ 1n− 1
X�cXc
«−1x.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 29Curso 2010/2011 39 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
Contraste para el ajuste global
H0 : β1 = 0 (excluimos β0 = 0 para no obligar al ajuste a pasar por el origen).
Se puede testear H0 por medio de
F =SSR/q
SSE/(n− q− 1),
donde
SSR = (b�X�y− ny
2),
SSE = (y�y− b
�X�y).
Puede mostrarse que F se distribuye según una Fq,n−q−1 cuando H0 es cierta. Por
tanto, rechazamos H0 cuando F > Fα,q,n−q−1.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 30Curso 2010/2011 40 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
El coeficiente de correlación múltiple
Se define el coeficiente de determinación múltiple como
R2 =
b�Xy− ny
2
y�y− ny2 .
El coeficiente de correlación múltiple R se define como la raíz cuadrada positiva de R2.
Si en el ajuste global planteamos H0 : β1 = 0, podemos llevar a cabo el contraste de
hipótesis utilizando el estadístico
F =n− q− 1
q
R2
1− R2 .
Si en el ajuste parcial planteamos H0 : βd
= 0, podemos llevar a cabo el contraste de
hipótesis utilizando el estadístico
F =(R
2 − R2r )/h
(1− R2)/(n− q− 1).
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 31Curso 2010/2011 41 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
Contraste para el ajuste parcial
Sea βr
el conjunto de coeficientes a ser retenidos (retained) y βd
el conjunto de coefi-
cientes que sospechamos pueden ser eliminados (deleted).
Si definimos
β =
„β
r
βd
«,
de modo que nuestra hipótesis nula sea H0 : βd
= 0. Siempre podemos reordenadar
los coeficientes que sospechamos no son significativos para que aparezcan segrega-
dos de los coeficientes “significativos”.
Se puede testear H0 por medio de
F =(b�X�y− b
�rX
�ry)/h
(y�y− b�X�y)/(n− q− 1)
,
donde h es el número de parámetros en βd
(por tanto hay q + 1− h parámetros en βr).
Se realiza entonces el ajuste empleando todos los coeficientes en β y el ajuste parcial
a sólo los coeficientes en βr.
Se puede demostrar que el estadístico anterior sigue una Fh,n−q−1 cuando H0 es cierta.
De modo que rechazaremos H0 cuando F > Fα,h,n−q−1.
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 32Curso 2010/2011 42 / 43
Regresión lineal múltiple Regresión lineal múltiple univariada
Referencias
Babu G.J., Feigelson E.D., Astrostatistics, 1996, Chapman & Hall,
London
Rencher A.C., Methods of multivariate analysis, 2nd edition, 2002,
John Wiley & Sons
Wall J.V., Jenkins C.R., Practical statistics for astronomers, 2003,
Cambridge University Press
Tema 6: Introducción a la estadística multivariante (♣)Análisis de datos y Estadística Avanzada 33Curso 2010/2011 43 / 43