Ejemplo de Regresión Lineal Múltiple
Un distribuidor de cervezas está analizando el sistema de entregas de su producto; en
particular, está interesado en predecir el tiempo sugerido para servir a los detallistas. El
ingeniero industrial a cargo del estudio ha sugerido que los factores que influyen sobre el
tiempo de entrega son el número de cajas de cervezas y la máxima distancia que debe
viajar el despachador. Se tomaron muestras y se obtienen los resultados que se
muestran en la tabla 1.
Número de Cajas (X1)
Distancia (X2)
Tiempo (Y)
10 30 24
15 25 27
10 40 29
20 18 31
25 22 25
18 31 33
12 26 26
14 34 28
16 29 31
22 37 39
24 20 33
17 25 30
13 27 25
30 23 42
24 33 40
Tabla 1: Número de cajas transportadas, distancia recorrida y tiempo de servicio al cliente para 15 muestras de un sistema de reparto de cerveza
Primero se explorará las relaciones entre todas las parejas de variables, en particular la relación de Y
con cada una de las variables independientes. Esto lo detectaremos a través de las correlaciones y la
función pairs de R, la cual produce un gráfico matricial para las variables dadas.
Comandos en R:
cervezas=read.table('cervezas.txt',header=T) – Cargando los datos
pairs(cervezas)
Figura 1: Plot matricial de las variables del conjunto de datos “cervezas”
cor(cervezas) - Correlaciones
No.cajas Distancia Tiempo
No.cajas 1.0000000 -0.4052976 0.7246466
Distancia -0.4052976 1.0000000 0.1269032
Tiempo 0.7246466 0.1269032 1.0000000
Si deseamos observar los gráficos bidimensionales hacemos: plot(No.cajas,Tiempo) y
plot(Distancia,Tiempo)
No.cajas
20 25 30 35 40
1015
2025
30
2025
3035
40
Distancia
10 15 20 25 30 25 30 35 40
2530
3540
Tiempo
Figura 2: Gráficos 2D de la variable respuesta en función de las variables independientes por separado
Se puede observar que la variable independiente “No. de cajas” (X1) es la que tiene mejor relación
lineal con el tiempo de entrega, es decir, a medida que aumenta una de ellas aumenta la otra. En
tanto la máxima distancia (X2) que debe recorrer el despachador no parece tener una relación lineal
muy marcada para predecir el tiempo.
AJUSTE DE UN MODELO
Supongamos que se decide usar un modelo de la forma:
yi = β0 + β1x1i + β2 x2i +εi
De manera matricial tenemos, � � �� � �, donde
Y: vector n x 1 de respuestas (variable dependiente)
X: matriz n x p que contiene ceros, unos y/o valores de variables independientes (matriz de diseño)
�: vector p x 1 de parámetros
�: vector n x 1 de errores aleatorios
10 15 20 25 30
2530
3540
No.cajas
Tie
mpo
20 25 30 35 40
2530
3540
Distancia
Tie
mpo
� �
������������242729312533262831393330254240�
������������
,� �
�����������1 10 301 15 251 10 401 20 181 25 221 18 311 12 261 14 341 16 291 22 371 24 201 17 251 13 271 30 231 24 33�
�����������
,� � �β�β�β��
Datos: , ,
Con lo cual las ecuaciones normales (sistema de mínimos cuadrados) toman la forma
���� �! � ����
" 15 270 420270 5364 7347420 7347 12308#�$%�$%�$%�� � " 463867913027#
⇒
y al resolver se obtiene:
�! � "2.3130.8770.456#
De aquí que:
'() � 2.313 � 0.877*�) � 0.456*�)
En R usamos la instrucción: lm(Tiempo~No.cajas+Distancia)
Por las propiedades de los estimadores de mínimos cuadrados, se puede considerar que
$%� ~ -�$�, .�/��
$%� ~ -�$�, .�/��
15
11
270ii
x=
=∑15
21
420ii
x=
=∑15
1
463ii
y=
=∑
10
1
2
ˆ 15 270 420 463ˆ 270 5.364 7.347 * 8.679
ˆ 420 7.347 12.308 13.027
β
ββ
− =
0
1
2
ˆ 3,478 0,069 0,078 463ˆ 0,069 0,0024 0,001 * 8.679
ˆ 0,078 0,001 0,002 13.027
β
ββ
− − = − −
2,31 0,88 . 0,46Tiempo No cajas Distancia= + +
$%� ~ -�$�, .�/��
donde /)) es el elemento de la diagonal de la matriz ���� 0� que corresponde a $). En este caso
tenemos que
$%� ~ -�$�, 3.478.�
$%� ~ -�$�, 0.0024.�
$%� ~ -�$�, 0.002.�
Ahora bien, no conocemos .�, de manera que si queremos obtener algún tipo de inferencia sobre el
modelo necesitaremos estimarlo.
El vector de errores se puede calcular a través de la siguiente expresión: 1 � � 2 ���3� 0��3�.
La suma de errores al cuadrado la obtenemos así:
445 � 1�1 � �3� 2 �!3�3� � 14741 2 �2.313 0.877 0.456 " 463867913027#
� 14741 2 14621.802 � 119.198
Luego podemos calcular 4� (estimador insesgado de .�)
4� � 4456 2 7 � 119.19815 2 3 � 9.93
3 corresponde al número de parámetros del modelo
PRUEBA DE HIPÓTESIS SOBRE LOS PARÁMETROS
Se desea probar: Ho: ββββi = 0 vs. H1: ββββi ≠≠≠≠ 0. El estadístico de interés en este caso es
8 � $%) 2 $)49/))
Puede probarse que este estadístico tiene una distribución t con n-p grados de libertad.
Se rechaza H0 cuando | T | > t n-p, αααα / 2
Si no es usada con cuidado, la prueba t puede llevar a resultados erróneos, porque las estimaciones
de los coeficientes no son independientes. En general, no es recomendable eliminar más de una
1
3.478 0.069 0.078
0.069 0.0024 0.001
0.078 0.001 0.002
( )tX X −
− − = − −
variable a la vez cuando aplicamos este procedimiento, pues sólo nos permite comparar modelos
que difieren en una variable.
Veamos cómo puede usarse esta prueba para el ejemplo de las cervezas. Comencemos probando la
hipótesis de que la distancia recorrida no influye en el tiempo de entrega. Esto equivale a plantear:
:�: $� � 0
:�: $� < 0
Así, tenemos
8 � $%) 2 $)49/)) � $%� 2 094�/�� � 0.4569�9.93 �0.002 � 0.4560.140 � 3.23
Si decidimos usar α=0.05, cuando buscamos el valor tabulado de t para un área de cola de α/2 =
0.025 correspondiente a una t con 12 grados de libertad, obtenemos =��,�.��> � 2.18. Como el valor
calculado de T es mayor que el tabulado, rechazamos :�. Es decir, se puede afirmar (a este nivel) que
la distancia recorrida es importante para predecir el tiempo de entrega de la cerveza.
Realizando la misma prueba para $�, formulamos las hipótesis
:�: $� � 0
:�: $� < 0
y obtenemos
8 � $%) 2 $)49/)) � $%� 2 094�/�� � 0.8779�9.93 �0.0024 � 0.8770.154 � 5.68
Comparando nuevamente contra =��,�.��> � 2.18, se rechaza :�. Es decir, podemos afirmar (a este
nivel) que el número de cajas distribuidas es importante para predecir el tiempo de entrega de la
cerveza.
Si se realiza la misma prueba t para el parámetro $�, se tiene que
:�: $� � 0
:�: $� < 0
8 � $%) 2 $)49/)) � $%� 2 094�/�� � 2.3139�9.93 �3.478 � 2.3135.876 � 0.393
En este caso no podemos rechazar la hipótesis nula. Es decir, podemos decir a este nivel de
significación que la constante en el modelo lineal planteado no parece ser relevante para predecir el
tiempo de entrega en esta muestra.
Utilizando el comando summary en R, observamos las características del modelo antes mencionada.
Para los parámetros del modelo se reporta los valores estimados de los coeficientes (vector �!), los
errores estándares (49/))) de cada coeficiente, el valor calculado de T y su p-valor correspondiente.
Además si disponemos de valores fijos de α (0.001, 0.01, 0.05, 0.1) podemos establecer conclusiones
preliminares de esta prueba individual, solamente al observar el p-valor.
summary(mod1)
El valor del error estándar residual observado en la salida de R,
corresponde a la √4� � √9.93 � 3.1.
El valor del estadístico F: 16.8, pertenece a la comparación de modelos
�1 ') � $� � @) �2 ') � $� � $�*�) � $�*�) � @)
En términos de hipótesis, comparar ambos modelos equivale a plantear las hipótesis:
:�: $� � $� � 0 AB. :�: CDEú6 $) < 0 Recordemos que el estadístico en este caso viene dado por la expresión siguiente
G � �!���� 2 HIJKL��� 2 �!����6 2 �L � 1 � 44ML4456 2 �L � 1 � N4MN45
Reemplazando
44M � �!���� 2 HIJK � �2.313 0.877 0.456 " 463867913027# – �15 �30.86 �
� 14621.802 2 14285.094 � 331.36
Residuals: Min 1Q Median 3Q Max -9.2716 -0.5405 0.5212 1.4051 2.9381 Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.3112 5.8573 0.395 0.70007 No.cajas 0.8772 0.1530 5.732 9.43e-05 *** Distancia 0.4559 0.1468 3.107 0.00908** ---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.141 on 12 degrees of freedom Multiple R-Squared: 0.7368, Adjusted R-squared: 0.6929 F-statistic: 16.8 on 2 and 12 DF, p-value: 0.0003325
445 = ��� 2 �!���� � 14741 2 �2.313 0.877 0.456 " 463867913027# � 119.198
44ML4456 2 �L � 1 � 331.362119.19815 2 �2 � 1 � 165.689.932 P 16.8
K es el número de parámetros a estimar.
Si fijamos un nivel α=0.05 y comparamos el valor de F que acabamos de calcular con G�,���.�>=3.89,
observamos que el valor calculado es mayor que el valor tabulado. Según el procedimiento de
prueba desarrollado anteriormente, rechazamos :�; por tanto, decidimos que el modelo (2) es mejor
que el modelo (1).
COMPARACIÓN DE MODELOS
Si deseamos comparar modelos anidados, la información necesaria se encuentra en las tablas
ANOVA de cada modelo. En este caso se considera el problema de comparar dos modelos de la
forma:
(I) yi= β0 + β1x1i +...+ βl xli + εi
(II) yi= β0 + β1x1i +... + βl xli + βl+1 xl+1,I + ...+ βk xki + εi
En este caso contrastamos la hipótesis
H0: βl+1= βl+2 = … = βk = 0 vs H1: βj ≠ 0, algún j =l+1,...,k
Rechazamos H0 si F > Fαααα k-l, n-(k+1).
Para generar la tabla ANOVA para un modelo o para comparar dos modelos anidados, se utiliza el
comando anova en R.
Como la variable Distancia nos había reflejado una relación lineal más débil, se estimo un modelo
lineal sin incluir esta misma. En R, escribimos
mod2=lm(Tiempo~No.cajas)
summary(mod2)
Al realizar esta instrucción notamos
que las pruebas t, nos sugieren
rechazar :�. Es decir, podemos afirmar
(a este nivel) que el número de cajas
distribuidas es importante para
predecir el tiempo de entrega de la
cerveza, de igual manera nos dice que
consideremos la constante en el
modelo.
Sin embargo, el valor del R2 ajustado
disminuye considerablemente.
Realicemos una comparación de ambos modelos (1 y 2) a través del ANOVA. Para hacer la
comparación entre los modelos se utiliza la instrucción anova (modelo más sencillo, modelo más
complejo)
anova(mod2,mod1)
Esta instrucción permite comparar dos modelos anidados a través de una prueba F.
En este caso la hipótesis es
H0: β2 = 0 vs H1: β2 ≠ 0
El estadístico en este caso sería
G � �445Q 2 445R /�L 2 D 445R/�6 2 �L � 1 � 213.573 2 118.3752 2 1118.37515 2 �2 � 1 � 95.1989.864 P 9.650
Fijando un nivel α=0.05 para la prueba, cuando comparamos el valor anterior con G�,�T�.�> � 4.67,
observamos el valor calculado es mayor que el tabulado, por lo que podemos rechazar la hipótesis
nula en este caso. Concluimos de manera similar que la distancia recorrida es importante para
predecir el tiempo de entrega de la cerveza.
Por lo que nos quedamos con el modelo
Residuals: Min 1Q Median 3Q Max -10.6583 -1.6018 -0.1821 2.5262 5.3952 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.5452 3.4142 5.432 0.000115 *** No.cajas 0.6845 0.1805 3.791 0.002244 ** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 4.053 on 13 degrees of freedom Multiple R-Squared: 0.5251, Adjusted R-squared: 0.4886 F-statistic: 14.37 on 1 and 13 DF, p-value: 0.002244
Res.Df RSS Df Sum of Sq F Pr(>F)
1 13 213.573
2 12 118.375 1 95.198 9.6505 0.00908 **
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
2,31 0,88 . 0,46Tiempo No cajas Distancia= + +
El ajuste y el análisis de un modelo lineal se sustentan en cuatro suposiciones básicas:
• La relación entre las variables es lineal, lo cual puede ser chequeado con el gráfico de los datos.
• Los errores siguen una distribución normal. • Las varianzas de los errores son iguales (es decir los errores son HOMOCEDÁSTICOS). • Los errores son independientes.
Es necesario entonces preguntarse si estas suposiciones se cumplen.
ANÁLISIS DE RESIDUOS
• Gráfico de residuos en papel normal. Debe obtenerse un gráfico similar a una recta. • Gráfico de residuos vs. valores estimados. • Gráfico de residuos vs. variables explicativas.
Figura 3: Forma de un gráfico satisfactorio de residuos
Figura 4. Formas típicas de gráficos de residuos insatisfactorios.
(1) Falta un término lineal. (2) Falta un término de orden superior.
(3) No hay homocedasticidad.
Si se desea un gráfico de residuos estandarizados vs. valores ajustados en R, existen funciones que
extraen ambos objetos de un modelo lineal. Estas funciones son fitted.values y rstandard.
Para chequear la suposición de normalidad podemos observar los siguientes gráficos:
rstint<-rstandard(mod1) – residuos estándares del modelo ajustado (completo)
win.graph() – abre una ventana para los gráficos
par(mfrow=c(1,3)) – divide la ventana en una fila y tres columnas
hist(rstint) – histograma de los residuos estandarizados
boxplot(rstint) – diagrama de cajas de los residuos estandarizados
qqnorm(rstint) – gráfico de cuantiles de los residuos estandarizados
qqline(rstint)
Para chequear si la varianza de los errores es constante o no, se puede graficar:
plot(fitted.values(mod1),rstandard(mod1), xlab="Valores ajustados", ylab="Residuos
estandarizados") - gráfico 2D de los valores ajustados vs. los residuos estandarizados
abline(h=0) – dibuja la recta en cero
Para verificar la independencia de los errores
plot(No.cajas,rstandard(mod1),xlab="No.cajas",ylab="Residuos estandarizados")
plot(Distancia,rstandard(mod1),xlab="Distancia",ylab="Residuos estandarizados")
Histogram of rstint
rstint
Fre
quen
cy
-4 -3 -2 -1 0 1 2
02
46
8
-3-2
-10
1
-1 0 1
-3-2
-10
1
Normal Q-Q Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Figura 5. Gráficos analizar los residuos del modelo ajustado
25 30 35
-3-2
-10
1
Valores ajustados
Res
iduo
s es
tand
ariz
ados
10 15 20 25 30
-3-2
-10
1
No.cajas
Res
iduo
s es
tand
ariz
ados
20 25 30 35 40
-3-2
-10
1
Distancia
Res
iduo
s es
tand
ariz
ados
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
asumiendo que las otras variables
�1 : 0.88β
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
se mantiene fija.
�2 : 0.46β
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
se mantiene constante.
�0 : 2.31β
cervezas y la distancia recorrida es cero.
En esta parte vamos a construir un intervalo de confianza de 95%
los clientes de la muestra, cuando el número de cajas (
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
asumiendo que las otras variables
: 0.88- Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
se mantiene fija.
: 0.46- Significa que el tiempo promedi
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
se mantiene constante.
: 2.31- Representa el valor
cervezas y la distancia recorrida es cero.
INTER
En esta parte vamos a construir un intervalo de confianza de 95%
los clientes de la muestra, cuando el número de cajas (
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
asumiendo que las otras variables independientes
Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
Significa que el tiempo promedi
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
se mantiene constante.
Representa el valor del tiempo de servicio a los clientes cuando el número de cajas de
cervezas y la distancia recorrida es cero.
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA
En esta parte vamos a construir un intervalo de confianza de 95%
los clientes de la muestra, cuando el número de cajas (
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando
Figura 6. Gráfico del plano ajustado
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
independientes
Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
Significa que el tiempo promedi
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
del tiempo de servicio a los clientes cuando el número de cajas de
cervezas y la distancia recorrida es cero.
VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA
En esta parte vamos a construir un intervalo de confianza de 95%
los clientes de la muestra, cuando el número de cajas (
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando
Figura 6. Gráfico del plano ajustado
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
independientes permanecen fijas.
Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
Significa que el tiempo promedio de servicio a los clientes se incrementa en
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
del tiempo de servicio a los clientes cuando el número de cajas de
VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA
En esta parte vamos a construir un intervalo de confianza de 95%
los clientes de la muestra, cuando el número de cajas (X1) es
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando
Figura 6. Gráfico del plano ajustado
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
permanecen fijas.
Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
o de servicio a los clientes se incrementa en
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
del tiempo de servicio a los clientes cuando el número de cajas de
VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA
En esta parte vamos a construir un intervalo de confianza de 95% para el tiempo medio
es 9 y la distancia recorrida (
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando
INTERPRETACIÓN DE LOS COEFICIENTES DE REGRESIÓN ESTIMADOS
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
o de servicio a los clientes se incrementa en
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
del tiempo de servicio a los clientes cuando el número de cajas de
VALOS DE CONFIANZA PARA LA RESPUESTA MEDIA
para el tiempo medio
y la distancia recorrida (
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando X1=9
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
o de servicio a los clientes se incrementa en
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
del tiempo de servicio a los clientes cuando el número de cajas de
para el tiempo medio de servicio a
y la distancia recorrida (X2 ) es de 16
y X2=16 es:
En general, un coeficiente de regresión representa el cambio promedio en la variable respuesta (Y)
cuando la variable independiente (X) correspondiente se incrementa una unidad adicional,
Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
o de servicio a los clientes se incrementa en
aproximadamente 0.46 de lo que sean las unidades en que viene medida dicho tiempo cuando la
distancia recorrida aumenta también. Suponiendo que el número de cajas de cervezas en este caso
del tiempo de servicio a los clientes cuando el número de cajas de
de servicio a
16.
Luego determinamos que
U� ��3� 0�U � V1 9 16W X 1916Y � 0.7344
Buscamos en la tabla el valor =Z �⁄ � =�.��> con n -(k +1) grados de libertad, es decir, =�.��>,�� �2.179
Además usando 4� � 4456 2 7 � 9.93
Tenemos nuestro intervalo buscado:
17.502 2 �2.179 9�9.93 �U� ��3� 0�U \ ]^ \ 17.502 � �2.179 9�9.93 �U� ��3� 0�U 17.502 2 �2.179 9�9.93 �0.7344 \ ]^ \ 17.502 � �2.179 9�9.93 �0.7344
11.617 \ ]^ \ 23.385
Tenemos un 95% de seguridad de que cuando las variables independientes (número de cajas y
distancia recorrida) adoptan los valores 9 y 16, el valor medio (E(Y)) de la variable tiempo de servicio
está entre 11.6 y 23.3.
INTERVALO DE PREDICCIÓN PARA UN VALOR PARTICULAR DE LA RESPUESTA
Veamos el intervalo de predicción de 95% para un valor particular de la variable dependiente
(tiempo), cuando el número de cajas (X1) es 9 y la distancia recorrida (X2 ) es de 16. Usando los valores
previos tenemos que:
17.502 2 �2.179 9�9.93 �1 � U� ��3� 0�U \ '� \ 17.502 � �2.179 9�9.93 �1 � U� ��3� 0�U 17.502 2 �2.179 9�9.93 �1 � 0.7344 \ '� \ 17.502 � �2.179 9�9.93 �1 � 0.7344
17.502 2 9.042 \ '� \ 17.502 � 9.042
8.459 \ '� \ 26.544
Observe que, el intervalo de predicción es considerablemente más ancho que el intervalo de
confianza.
En R, se pueden observar estos mismos resultados ejecutando los comandos siguientes
Valores=data.frame(No.cajas=9,Distancia=16) predict(mod1, newdata=valores, interval="confidence",level=0.95) predict(mod1, newdata=valores, interval="prediction",level=0.95)
3.478 0.069 0.078
0.069 0.0024 0.001
0.078 0.001 0.002
− − − −
Funciones genéricas de extracción de información del modelo
anova(objeto 1, objeto 2)
Compara un submodelo con un modelo externo y produce una tabla de análisis de la varianza. coefficients(objeto)
Extrae la matriz de coeficientes de regresión. Forma reducida: coef(objeto). formula(objeto)
Extrae la fórmula del modelo. plot(objeto)
Crea cuatro gráficos que muestran los residuos, los valores ajustados y algunos diagnósticos. predict(objeto, newdata=hoja.de.datos)
La nueva hoja de datos que se indica debe tener variables cuyas etiquetas coincidan con las de la original. El resultado es un vector o matriz de valores predichos correspondiente a los valores de las variables de hoja.de.datos. residuals(objeto)
Extrae la matriz de residuos, ponderada si es necesario. La forma reducida es resid(objeto). step(objeto)
Selecciona un modelo apropiado añadiendo o eliminando términos y preservando las jerarquías. Se devuelve el modelo que en este proceso tiene el máximo valor de AIC Otras funciones que permiten explorar sucesiones crecientes de modelos son add1(), drop1()