ejercicio de regresion lineal multiple

7
EJERCICIO DE REGRESION LINEAL MULTIPLE El gerente de ventas de una compañía de refacciones para automóviles, quiere desarrollar un modelo para predecir, en el mes de junio, las ventas anuales totales para una región. Si las ventas regionales se pueden predecir, entonces se podrán estimar las ventas totales de la compañía. El número de distribuidoras de la región que mantiene en inventario las refacciones de la compañía y el número de automóviles registrados para cada región, desde el primero de junio, son las dos variables de predicción que el gerente quiere investigar. Este obtiene los siguientes datos. Región Ventas (millones) y Número de distribuidoras Número de automóviles reg. 1 52.3 2011 24.6 2 26.0 2850 22.1 3 20.2 650 7.9 4 16.0 480 12.5 5 30.0 1694 9.0 6 46.2 2302 11.5 7 35.0 2214 20.5 8 3.5 125 4.1 9 33.1 1840 8.9 10 25.2 1233 6.1 11 38.2 1699 9.5 a) Analice la matriz de correlación b) ¿Son válidos los coeficientes de regresión? c) ¿Cuál es el error involucrado en el pronóstico para región 1 d) Indique cómo se calculó el error estándar de la estimación e) ¿Cómo puede mejorar esta ecuación de regresión? Análisis de Regresión Múltiple ----------------------------------------------------------------------------- Variable dependiente: Y ----------------------------------------------------------------------------- Error Estadístico Parámetro Estimación estándar T P-Valor ----------------------------------------------------------------------------- CONSTANTE 10,1093 7,21956 1,40026 0,1990 X2 0,0109889 0,00520014 2,11319 0,0675 X3 0,19466 0,639844 0,304231 0,7687 -----------------------------------------------------------------------------

Upload: jorge-mauricio-estrada-claros

Post on 04-Jul-2015

11.755 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: Ejercicio de Regresion Lineal Multiple

EJERCICIO DE REGRESION LINEAL MULTIPLE

El gerente de ventas de una compañía de refacciones para automóviles, quiere desarrollar un modelo para predecir, en el mes de junio, las ventas anuales totales para una región. Si las ventas regionales se pueden predecir, entonces se podrán estimar las ventas totales de la compañía. El número de distribuidoras de la región que mantiene en inventario las refacciones de la compañía y el número de automóviles registrados para cada región, desde el primero de junio, son las dos variables de predicción que el gerente quiere investigar. Este obtiene los siguientes datos.

Región Ventas (millones)y

Número de distribuidoras

Número de automóviles reg.

1 52.3 2011 24.62 26.0 2850 22.13 20.2 650 7.94 16.0 480 12.55 30.0 1694 9.06 46.2 2302 11.57 35.0 2214 20.58 3.5 125 4.19 33.1 1840 8.9

10 25.2 1233 6.111 38.2 1699 9.5

a) Analice la matriz de correlación b) ¿Son válidos los coeficientes de regresión? c) ¿Cuál es el error involucrado en el pronóstico para región 1 d) Indique cómo se calculó el error estándar de la estimación e) ¿Cómo puede mejorar esta ecuación de regresión?

Análisis de Regresión Múltiple-----------------------------------------------------------------------------

Variable dependiente: Y-----------------------------------------------------------------------------

Error EstadísticoParámetro Estimación estándar T P-Valor-----------------------------------------------------------------------------CONSTANTE 10,1093 7,21956 1,40026 0,1990X2 0,0109889 0,00520014 2,11319 0,0675X3 0,19466 0,639844 0,304231 0,7687-----------------------------------------------------------------------------

Análisis de Varianza-----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor-----------------------------------------------------------------------------Modelo 1043,66 2 521,832 4,91 0,0405

Residuo 849,564 8 106,196-----------------------------------------------------------------------------

Total (Corr.) 1893,23 10

R-cuadrado = 55,1262 porcentajeR-cuadrado (ajustado para g.l.) = 43,9077 porcentajeError estándar de est. = 10,3051Error absoluto medio = 6,22424Estadístico de Durbin-Watson = 2,45921 (P=0,1735)Autocorrelación residual en Lag 1 = -0,401176

Page 2: Ejercicio de Regresion Lineal Multiple

Y = 10,1093 + 0,0109889*X2 + 0,19466*X3

Matriz de correlación de los estimadores de los coeficientes----------------------------------------------------------------------------- CONSTANTE X2 X3CONSTANTE 1,0000 0,7390 0,5480X2 0.7390 1,0000 0.6700X3 0.5480 0.6700 1,0000-----------------------------------------------------------------------------

y X2 X3 Pronóstico ME

52,3 2011 24,6 36,51 15,79

26 2850 22,1 36,51 -10,51

20,2 650 7,9 36,51 -16,31

16 480 12,5 36,51 -20,51

30 1694 9 36,51 -6,51

46,2 2302 11,5 36,51 9,69

35 2214 20,5 36,51 -1,51

3,5 125 4,1 36,51 -33,01

33,1 1840 8,9 36,51 -3,41

25,2 1233 6,1 36,51 -11,31

38,2 1699 9,5 36,51 1,69

a) El número de distribuidoras se relaciona con las ventas anuales y es una

buena variable de predicción potencial. El número de automóviles registrados tiene una relación moderada con las ventas anuales y, debido a la multicolinealidad

, no será un buen predictor junto con el número de distribuidoras

b) NO, la multicolinealidad está presente y causa que los coeficientes de regresión no sean confiables.

c) el error involucrado en el pronóstico para la región 1 es 15.79

d) Del análisis de varianza obtenemos el valor de residuo

=10.3

e) Se deben probar nuevas variables de predicción

El gerente decide investigar una nueva variable de predicción: el ingreso personal en la región. Los datos para esta nueva variable son:

Región

Ingreso Personal(miles de millones)

Page 3: Ejercicio de Regresion Lineal Multiple

1 98.52 31.13 34.84 32.75 68.86 94.77 67.68 19.79 67.9

10 61.411 85.6

f) ¿Es el ingreso personal por región una buena variable de predicción potencial?g) ¿Qué porcentaje de la varianza en las ventas se explicará usando solamente el ingreso personal como variable de predicción? h) ¿Qué porcentaje de la varianza en las ventas se explicará usando las tres variables de predicción? i) ¿Explica la ecuación de predicción de la ejecución número 1 un porcentaje significativo de la varianza en las ventas? Pruebe a un nivel de significancia del 5% j) Realice una prueba con un nivel de significancia del 5% para determinar si se debe usar cada una de las tres variables de predicción k) Realice una prueba con un nivel de significancia del 5% para determinar si el ingreso personal y el número de distribuidoras deben usarse para predecir las

ventas. l) realice una prueba con un nivel de significancia del 5% para determinar si el ingreso personal y el número de automóviles registrados deben usarse para

predecir las vetas m) ¿Qué modelo debe usar el gerente? n) Interprete el coeficiente de regresión estimados para la ecuación del punto j o) ¿Son válidos estos coeficientes de regresión? p) Analice la exactitud de este modelo

Ejecución 1

Análisis de Regresión Múltiple-----------------------------------------------------------------------------Variable dependiente: Y----------------------------------------------------------------------------- Error EstadísticoParámetro Estimación estándar T P-Valor-----------------------------------------------------------------------------CONSTANTE -3,9177 2,29017 -1,71066 0,1309X2 0,00238409 0,00157212 1,51648 0,1732X3 0,457426 0,167499 2,73091 0,0293X4 0,400576 0,0377914 10,5996 0,0000-----------------------------------------------------------------------------

Análisis de Varianza-----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor-----------------------------------------------------------------------------Modelo 1843,4 3 614,467 86,32 0,0000Residuo 49,8268 7 7,11812-----------------------------------------------------------------------------Total (Corr.) 1893,23 10

R-cuadrado = 97,3682 porcentajeR-cuadrado (ajustado para g.l.) = 96,2402 porcentajeError estándar de est. = 2,66798Error absoluto medio = 1,65087Estadístico de Durbin-Watson = 2,01049 (P=0,4483)Autocorrelación residual en Lag 1 = -0,013595

Page 4: Ejercicio de Regresion Lineal Multiple

Ejecución 2

Análisis de Regresión Múltiple-----------------------------------------------------------------------------Variable dependiente: Y----------------------------------------------------------------------------- Error EstadísticoParámetro Estimación estándar T P-Valor-----------------------------------------------------------------------------CONSTANTE -4,0269 2,46799 -1,63165 0,1414X3 0,620922 0,13821 4,49259 0,0020X4 0,430169 0,0348932 12,3281 0,0000-----------------------------------------------------------------------------

Análisis de Varianza-----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor-----------------------------------------------------------------------------Modelo 1827,03 2 913,516 110,40 0,0000Residuo 66,1964 8 8,27455-----------------------------------------------------------------------------Total (Corr.) 1893,23 10

R-cuadrado = 96,5035 porcentajeR-cuadrado (ajustado para g.l.) = 95,6294 porcentajeError estándar de est. = 2,87655Error absoluto medio = 2,18538Estadístico de Durbin-Watson = 2,17004 (P=0,2940)Autocorrelación residual en Lag 1 = -0,100016

Ejecución 3

Análisis de Regresión Múltiple-----------------------------------------------------------------------------Variable dependiente: Y----------------------------------------------------------------------------- Error EstadísticoParámetro Estimación estándar T P-Valor-----------------------------------------------------------------------------CONSTANTE -1,60819 2,86116 -0,562076 0,5895X2 0,00514754 0,00161745 3,1825 0,0129X4 0,385301 0,0502448 7,66847 0,0001-----------------------------------------------------------------------------

Análisis de Varianza-----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor-----------------------------------------------------------------------------Modelo 1790,32 2 895,158 69,59 0,0000Residuo 102,913 8 12,8641-----------------------------------------------------------------------------Total (Corr.) 1893,23 10

R-cuadrado = 94,5642 porcentajeR-cuadrado (ajustado para g.l.) = 93,2052 porcentajeError estándar de est. = 3,58666Error absoluto medio = 2,57292Estadístico de Durbin-Watson = 1,0611 (P=0,0568)Autocorrelación residual en Lag 1 = 0,298956

Page 5: Ejercicio de Regresion Lineal Multiple

Matriz de correlación de los estimadores de los coeficientes----------------------------------------------------------------------------- CONSTANTE X2 X3 X4CONSTANTE 1,0000 0,739 0.548 0.936X2 0.739 1,0000 0.670 0.556X3 0.548 0.670 1,0000 0.281X4 0.936 0.556 0.281 1,0000-----------------------------------------------------------------------------

f) Si, el ingreso personal tiene una fuerte relación con las ventas anuales

g)

h)

i) Las hipótesis nula y alternativa son:

En la salida del análisis de varianza de la ejecución 1, se observa que el p-valor del modelo es 0.000 y como , por tanto se rechaza la hipótesis nula y el gerente

concluye que la ecuación de regresión muestral explica un porcentaje significativo de la varianza en las ventas

j) Las hipótesis adecuadas son:

El ingreso personal ( es una variable significativa, lo mismo que el número de registros

( ya que el p-valor es 0.000 y 0.0293 por el contrario el número de distribuidoras

no es una variable significativa

k) Las variables que deben probarse están en la ejecución número 3. Las hipótesis adecuadas son:

La hipótesis nula se rechaza de acuerdo con los p-valores 0.0129 y 0.0001 respectivamente, por tanto el gerente concluye que ambas variables explican una parte significativa de la varianza en las ventas.

l) Las variables que deben probarse están en la ejecución número 2. Las hipótesis adecuadas son:

Page 6: Ejercicio de Regresion Lineal Multiple

La hipótesis nula se rechaza de acuerdo con los p-valores 0.0020 y 0.000 respectivamente, el gerente concluye que ambas variables explican una porción significativa de la varianza en las ventas.

m) El gerente de ventas debe elegir el modelo que incluye a los automóviles registrados y al ingreso personal por que explican un mayor porcentaje de la varianza

n) La ecuación es . Si el número de automóviles

registrados en la región aumenta en un millón, mientras que el ingreso personal se mantiene constante, las ventas aumentarán en un promedio de 620.920. Si el ingreso personal aumenta en mil millones, mientras que el número de automóviles registrados se deja constante, las ventas aumentarán en promedio de 430.170

o) Los coeficientes de regresión deben ser válidos, ya que las variables 3 y 4 tiene una relación muy fuerte entre ellas ( de manera que la multicolinealidad no es un

problema.

p) El modelo explica el 96.5% de la varianza en las ventas y debe ser bastante adecuado. Cada pronóstico se aleja alrededor de 2.877 millones (el valor de la desviación estándar de la estimación) (Ejecución número 2)