regresión múltiple

23
Regresión múltiple Muchos problemas de regresión involucran más de una variable regresiva. Tales modelos se denominan de regresión múltiple. La regresión múltiple es una de las técnicas estadísticas mas ampliamente utilizadas. Este capítulo presenta las técnicas básicas de la estimación de parámetros, de la estimación del intervalo de confianza y de la verificación de la suficiencia del modelo para la regresión múltiple. Presentamos también algunos problemas encontrados con frecuencia en el uso práctico de la regresión múltiple, incluyendo la construcción del modelo y la selección de variables, la autocorrelación en los errores, y la multicolinearidad y la dependencia casi lineal entre los regresores. 15-1 Modelos de regresión múltiple El modelo de regresión que involucra más de un variable regresadora se llama modelo de regresión múltiple. Como un ejemplo, supóngase la vida eficaz de una herramienta de corte depende de la velocidad y del ángulo de corte. Un modelo de regresión múltiple que podrá describir esta relación es (15-1) Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ángulo de corte. Este es un modelo de regresión lineal múltiple con dos regresores. El término “lineal” se emplea debido a que la ecuación 15-1 es la función lineal de los parámetros desconocidos β0, β1 y β2. Nótese que el modelo describe un plano en el espacio bidimensional x1, x2. Parámetro β0 define la ordenada al origen del plano. Unas veces llamados a β1 y β2 coeficientes de regresión parciales, Porque β1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene constante, y β2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante. Variable independiente (regresiva o regresora) (Independ Y= vida de la herramienta X1= rapidez de

Upload: odel007

Post on 18-Jun-2015

19.342 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: Regresión múltiple

Regresión múltiple

Muchos problemas de regresión involucran más de una variable regresiva. Tales modelos se denominan de regresión múltiple. La regresión múltiple es una de las técnicas estadísticas mas ampliamente utilizadas. Este capítulo presenta las técnicas básicas de la estimación de parámetros, de la estimación del intervalo de confianza y de la verificación de la suficiencia del modelo para la regresión múltiple. Presentamos también algunos problemas encontrados con frecuencia en el uso práctico de la regresión múltiple, incluyendo la construcción del modelo y la selección de variables, la autocorrelación en los errores, y la multicolinearidad y la dependencia casi lineal entre los regresores.

15-1 Modelos de regresión múltiple

El modelo de regresión que involucra más de un variable regresadora se llama modelo de regresión múltiple. Como un ejemplo, supóngase la vida eficaz de una herramienta de corte depende de la velocidad y del ángulo de corte. Un modelo de regresión múltiple que podrá describir esta relación es

(15-1)

Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ángulo de corte. Este es un modelo de regresión lineal múltiple con dos regresores. El término “lineal” se emplea debido a que la ecuación 15-1 es la función lineal de los parámetros desconocidos β0, β1 y β2. Nótese que el modelo describe un plano en el espacio bidimensional x1, x2. Parámetro β0 define la ordenada al origen del plano. Unas veces llamados a β1 y β2 coeficientes de regresión parciales,Porque β1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene constante, y β2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante.En General la variable dependiente o respuesta y puede relacionarse con k variables independientes. El modelo de regresión múltiple (lineal)

(15-2)

Se denomina modelos de regresión lineal múltiple con k variables independientes. Los parámetros βj, j= 0, 1, . . . , k, se llaman coeficientes de regresión . Este modelo describe un hiperplano en el espacio k-dimensional de las variables regresoras {xj}. El parámetro βj representa el cambio esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj (i≠j) se mantienen constantes. Los parámetros βj, j = 1, 2, . . . , k, se denominan algunas veces coeficientes de regresión parciales, porque ellos describen el efecto parcial de una variable independiente cuando las otras variables independientes en el modelo se mantienen constantes.Los modelos de regresión lineal múltiple se utilizan a menudo como funciones de aproximación. Esto es, la verdadera relación funcional entre y y x1, x2,…. Se desconoce, aunque sobre ciertos intervalos de las variablwes independientes ………..

Variable independiente (regresiva o regresora)Variable dependiente (Respuesta)

(Independi

Y= vida de la herramientaX1= rapidez de

Coeficientes de regresión

Page 2: Regresión múltiple

En general, cualquier modelo de regresión que es lineal en los parámetros (los parámetros β) es un modelo de regresión lineal, sin importar la forma de la superficie que genera.

15-2 Estimación de parámetros

El método de mínimos cuadrados puede utilizarse para estimar los coeficientes de regresión en la ecuación 15-2. Supóngase que se disponen n > k observaciones, y dejese que xij denoten la observación iésima o el nivel de la variable xj. Los datos aparecn en la tabla 15.1 suponemos que el termino del error en el modelo tiene E(ε)= 0, V(ε)=δ² y que las { ε j} son variable aleatorias no correlacionadas

Podemos describir el modelo, ecuación 15-2, en términos de las observaciones como

(15-7)La función de mínimos cuadrados es

(15.8) La función L se minimizara con respecto a β0, β1, . . . , βk. los estimadores de mínimos cuadrados de β0, β1, . . . , βk debe satisfacerse

(15-10)

V(E)= varianza del error= δ²

E(e)= valor esperado del error= 0

Ecuaciones normales de mínimos cuadrados

Page 3: Regresión múltiple

Nótese que hay p = k + 1 ecuaciones normales, una para cada una de los coeficientes de regresión desconocidos. Las solución para las ecuaciones normales serán los estimadores de mínimos cuadrados de los coeficientes de regresión, β0, β1, . . . , βk.Es más simple resolver las ecuaciones normales si ellas se expresan en notación de matriz. Daremos ahora un desarrollo matricial de las ecuaciones normales que es afin al desarrollo de la ecuación 15-10. El modelo en términos de las observaciones, ecuaciones 15-7, puede expresarse en notación matricial como

Donde

En general y es un vector (n X 1) de las observaciones, X es un matriz (x X p) de los niveles de las variables independientes, β es un vector (p X 1) de los coeficientes de regresión, y ε es un vector (n X 1) de los errores aleatorios.Deseamos encontrar el vector de los estimadores de mínimos cuadrados, β, que minimice

Nótese que L puede expresarse como

(15-11)

Puesto β’X’y es una matriz de (1 X 1), o un escalar, y su transpuesta (β’X’y )’= y ‘X β es el mismo escalar. Los estimadores de mínimos cuadrados deben satisfacer

Y= vector (n X 1) obs.X=matriz (x X p) de los niveles de

B= vector ( p x 1)E= vector ( n x 1 )E= errores aleatorios

K= numero de variables

Filas

Page 4: Regresión múltiple

Que se simplifica a

(15-12)

Las ecuaciones 15-12 son las ecuaciones normales de mínimos cuadrados. Ellas son idénticas a las ecuaciones 15-10. Para resolver las ecuaciones normales, multiplíquense ambos lados de la ecuación 15-12 por la inversa de X’X. De tal modo, el estimador de mínimos cuadrados de β es

Es fácil ver que la forma matricial de las ecuaciones normales es idéntica a la de la forma escalar. Al escribir completa loa ecuación 15-12 obtenemos

Si se efectúa la multiplicación matricial indicada, resultara la forma escalar de las ecuaciones normales (esto es, la ecuación 15-10). En esta forma es fácil ver que X’X es una matriz simétrica (p X p) y X’y es un vector columna (p X 1). Adviértase la estructura especial de la matriz X’X. los elementos de la diagonal X’X son las sumas de cuadrados de los elementos en las columnas de X’y son las sumas de los productos cruzados de las columnas de X y las observaciones {yi}.El modelo de regresión ajustado es

En notación escalar, el modelo ajustado es

La diferencia entre la observación yi y el valor ajustado yi es un residuo, digamos εi=yi-yi. El vector (n X 1) de los residuos se denota mediante

(15-15)La diferencia entre las observaciones y1 y el valor ajustado ЎI es un residuo digamos eI= y1-ЎI . El vector (nx1) de los residuos se denota mediante

Estas ec. Son las ec. Normales de mínimos cuadrados

β’= Estimador de mínimos cuadrados

Page 5: Regresión múltiple

Y x1 x2 Y=y- Ў X1= x1-x1 X2= x2-x2 YX1 YX2 X21 X2

2 X1 X2

27.5 2 18 -1.985 -4.428 9.072 8.789 -18.01 19.6 82.3 -40.17

28 3.5 16.5 -1.486 -2.929 7.572 4.352 -11.25 8.579 57.33 -22.178

28.8 4.5 10.5 -0.686 -1.929 1.571 1.323 -1.077 3.721 2.468 -3.03

29.1 2.5 2.5 -0.386 -3.928 -6.429 1.516 2.481 15.42 41.33 25.253

30 8.5 9 0.514 2.071 0.071 1.064 0.0364 4.289 0.005 0.147

31 10.5 4.5 1.514 4.071 -4.429 6.163 -6.705 16.57 19.61 -18.03

32 13.5 1.5 2.515 7.072 -7.428 17.186 -18.68 50.01 55.17 -52.53

206.4 45 62.5 0 0 0 40.996 -53.21 118.2 258.3 -110.54

Estas Forma tridimensional con ejes Y, x1, x2 (plano)

Nuestro problema consiste en decidir cuál de los planos posibles que podemos dibujar será el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mínimos cuadrados y localizaremos el plano que minimice la suma de los cuadrados de los errores, es decir las distancias desde los puntos alrededor del plano a los puntos correspondientes sobre el plano.

Ejemplo. A partir de un estudio experimental acerca de la estabilización de arcilla muy plástica se observo que el contenido de agua para moldeo con densidad optima dependía linealmente de los porcentajes de cal y puzolana mezclados con la arcilla. Se tuvieron así los resultados de la siguiente tabla. Ajuste una ecuación de la forma Ў= β0+β1X1+β2X2 a los datos de dicha tabla

Contenido de Porcentaje de porcentaje de% de agua (y) cal (X1) puzolana (X2) 27.5 2.0 18.0 28.0 3.5 16.5 28.8 4.5 10.5 29.1 2.5 2.5 30.0 8.5 9.0 31.0 10.5 4.5 32.0 13.5 1.5

Grafica de 10 puntos de una muestra y el plano alrededor del cual estos puntos parecen ocuparse

Page 6: Regresión múltiple

Esta ecuación se puede obtener por medio de la tabla con la sig. Formula

Σ x 1 y=β 1 Σ x 2+β 2 Σ x 1x 2Σ x 2 y=β 1 Σ x1 x2+β 2 x 22

40.99563=118.2117 β 1−110.54078 β 2−53.20647=−110.54078 β 1+258.23270 β 2

por eliminación se tiene: β1=0.257004 β2=-0.096026

Ў =β 0+β 1 X 1+β 2 X 2 29.486=β 0+(0.257004 )(6.429)+(−0.096026)(8.929)

β 0=28.691

ỹ=Σy /n=206.4 /7=29.486 x1=Σ x 1/n=45/7=6.429 x2=Σ x 2/n=62.5/7=8.929

De este modo Ў =β 0+β 1 X 1+β 2 X 2 Ў =28.691+0.257 X 1+0.0960 X 2

Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el porcentaje de aguaEjemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseño de la ruta, el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero de latas almacenadas como regresor.)

Ajustaremos el modelo de regresión lineal múltiple:Ў =β 0+β 1 X 1+β 2 X 2+ε

Tabla 15-2 Datos del tiempo de entrega para el ejemploNumero de

observacionesTiempo de entrega

(min.)(y)Numero de latas

X1

Distancias (pies)X2

1 9.95 2 502 24.45 8 1103 31.75 11 1204 35.00 10 5505 25.02 8 2956 16.86 4 2007 14.38 2 3758 9.60 2 529 24.35 9 100

10 27.50 8 30011 17.08 4 41212 37.00 11 40013 41.95 12 500

Page 7: Regresión múltiple

14 11.66 2 36015 21.65 4 20516 17.89 4 40017 69.00 20 60018 10.30 1 58519 34.93 10 54020 46.59 15 25021 44.88 15 29022 54.12 16 51023 56.63 17 59024 22.13 6 10025 21.15 5 400

Los estimadores de minimos cuadrados se encuentra de la ecuacion

Β=(X´X)-1X´Y

A estos datos. La matriz X y el vector y para este modelo son

1 2 50 9.951 8 110 24.951 11 120 31.751 10 550 35.001 8 295 25.021 4 200 16.861 2 375 14.381 2 52 9.601 9 100 24.351 8 300 27.501 4 412 17.08

X= 1 11 400 y= 37.001 12 500 31.951 2 360 11.661 4 205 26.651 4 400 17.891 20 600 69.001 1 585 10.301 10 540 34.931 15 250 46.591 15 290 44.881 16 510 54.121 17 590 56.631 6 100 22.131 5 400 21.15

La matriz X´X es 1 2 50

Page 8: Regresión múltiple

1 8 110 1 1 ….. 1 . . .

X´X= 2 8 ….. 5 . . . 50 110 ….. 400 . . .

1 5 400

25 206 8294= 206 2396 77177 8294 77177 3531848

y el vector X´y es 9.9524.45

1 1 … 1 . 725.82 X´y= 2 8 … 5 . = 8008.37

50 110 … 400 . 274811.3121.15

β0 25 206 8294 -1 752.82β1 = 206 2396 77177 8008.37β2 8294 77177 3531848 274811.31

.214653 -0.0007491 -0.000.340 752.82 = -0.00749 0.001671 -0.000019 8008.37

-0.00340 -0.000019 0.0000015 274811.31 2.26379143 β0

= 2.74426964 β1

0.01252781 β2

Tabla 15-3 Observaciones, valores ajustados y residuos para el ejemploNumero de

observacionesY1 Valores ajustados

de y1

Residualesε = y1 - Ŷ1

1 9.95 8.38 1.572 24.45 25.60 -1.15

Page 9: Regresión múltiple

3 31.75 33.95 -2.204 35.00 36.60 -1.605 25.02 27.91 -2.896 16.86 15.75 1.117 14.38 12.45 1.938 9.60 8.40 1.209 24.35 28.21 -3.86

10 27.50 27.98 -0.4811 17.08 18.40 -1.3212 37.00 37.46 -0.4613 41.95 41.46 0.4914 11.66 12.26 -0.6015 21.65 15.81 5.8416 17.89 18.25 -0.3617 69.00 64.67 4.3318 10.30 12.34 -2.0419 34.93 36.47 -1.5420 46.59 46.56 0.0321 44.88 47.06 -2.1822 54.12 52.56 1.5623 56.63 56.31 0.3224 22.13 19.98 2.1525 21.15 21.00 0.15

Por lo tanto el modelo de regresión ajustado es

Ŷ = 2.26379+2.74427 X1+0.01253 X2+ ε

Notese que hemos redondeado los coeficientes de regresión hasta cinco lugares. La tabla 15-3 muestra los valores ajustado de y y los residuales. Los valores ajustados y los residuales se calculan con la misma precision que los datos originales. Calcular los valores ajustado de Ŷ y los residuales

b) Estimaremos la varianza del error (σ2) para el problema de la regresión múltiple en el ejemplo 15-3

MS E=SSE/n−p MSE= Media cuadratica para el error

Page 10: Regresión múltiple

SSE= Suma de cuadrados de los errores o residuos Puede mostrarse que n-p= Grados de libertad asociados

σ 2=MSE n= No. de elementos p= No. de tratamientos (variables)

SSE= y ´ y−β ´ ( X ´ Y )

y ´ y=25 Σi=1 y i2=27.1779510

725.82β´(X´Y)= 2.26379143 2.74426964 0.01252781 80008.37 = 27062.7775

274811.31

Por consiguiente la suma de cuadrados del error es

SSE= y ´ y−β ´ ( X ´ Y )=27177.9510−27062.7775

SSE=115.1735

La estimación de σ2 (la varianza del error) es:

σ 2=SSE /n−p=115.1735/25−3=5.2352

Puede mostrarse que el valor esperado de MSE es σ2

MSE=SSE/n−p

σ 2=MSE

Intervalos de confianza en regresión lineal múltiple

Con frecuencia es necesaria construir estimaciones de intervalos de confianza para los coeficientes de regresión { β j}, para esto se requiere que los errores {ej} se distribuyen de forma normal e independiente con media cero y varianza σ²

Page 11: Regresión múltiple

En consecuencia, un intervalo de confianza del 100(1-α) % por ciento para el coeficiente de regresión β j= o, 1,. . . k es.

β jˆ−t α

2, n−p

√σ2 C jj ≤ β j ≤ β jˆ+ t α

2,n−p

√σ2 C jj

Ejemplo c)Construir un intervalo de confianza del 95% respecto al parámetro β1, para nuestro ejemplo, nótese

que la estimación puntual es β1 es β1=2.14427, y que el elementó de la diagonal de ( X T X )−1

corresponde a β1 es cii=0.001671

2.74727−t 0.025,22√ (5.2351 )(0.001671)≤ β1 ≤ 2.74727−t 0.025,22√ (5.2351 )(0.001671)2.55029 ≤ β1 ≤2.93825

Conclusión: el intervalo de confianza de 95% para el coeficiente de regresión de β1se encuentre entre:2.55029 y 2.93825

Estimación del intervalo de confianza de la respuesta media

Se puede establecer un intervalo de confianza para la respuesta media en determinado punto particular, digamos X0, X01, . . . Xok

La respuesta media estimada en ese punto es

yoˆ =Xo

T β ˆ

La varianza de Yo (variable de respuesta)

V ( yoˆ )=σ ˆ 2 X 0

T ( XT X )−1X0

Por lo tanto, un intervalo de confianza del 100(1-α)% respecto a la respuesta media en el punto X0, X01, . . . Xok es

yoˆ −t α

2, n−p

√σ ˆ 2 X0T ( XT X )−1

X 0≤ E ( y0 ) ≤ yoˆ+ t α

2, n−p

√σ ˆ 2 X0T ( XT X )−1

X 0

Ejemplo: el embotellador de refrescos en nuestro ejemplo le gustaría construir un intervalo de confianza del 95% respecto al tiempo de entrega media para una salida que requiere x1=8 latas y donde la distancia X2=275 pies.

Page 12: Regresión múltiple

Respuesta media esperada:

yo' =[1 8 275 ] [2.26379

2.744270.01253]=27.66

La varianza de yoˆ se estima mediante:

V ( yoˆ )=σ ˆ 2 X 0

T ( XT X )−1X0

V ( yoˆ )=5.23521 [ 1 8 275 ] [ 0.214653 −0.007491 −0.00034

−0.007491 0.001671 −0.000019−0.000340 0.000019 0.0000015 ]=0.23266

Por lo tanto un intervalo de confianza del 95%en el tiempo de entrega media es.

27.66−t 0.025,22√0.232666 ≤ E ( y 0) ≤ 27.66+t 0.025,22√0.23266626.66 ≤ E ( y0 ) ≤28.66

Conclusión: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y 28.66 min. Con un nivel de confianza del 95%

Predicción de nuevas observacionesEl modelo de regresión puede utilizar para predecir observaciones futuras respecto y que corresponde a valores particulares de las variables independientes, digamos X0, X01, . . . Xok, una estimación puntual de la observación futura Yo en el punto X0, X01, . . . Xok es

yoˆ =Xo

T β ˆ

Un intervalo de predicción del 100(1-α) % para esta observación futura es

yoˆ −t α

2, n−p

√σ ˆ 2 (1+ X0T ( XT X )−1

X0 )≤ y0 ≤ y oˆ + t α

2, n−p

√σ ˆ 2 (1+ X0T ( XT X )−1

X0 )

Ejemplo:Supóngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de predicción del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies

Conclusión.-El intervalo de predicción en el tiempo con un nivel de confianza del 95% está entre 22.51 y 32.51min este intervalo es más ancho ya que toma en cuenta tanto el error estándar del estimador mas el error muestra.

Page 13: Regresión múltiple

Pruebas de hipótesis en la regresión lineal múltiple

En regresión lineal múltiple , ciertos tipos de hipótesis respecto a los parámetros del modelo son o tipos de al medir la suficiencia del modelo, seguiremos requiriendo la suposición normalidad en los errores prueba de significación de regresión, esta prueba es para determinar si hay una relación lineal entre la variable dependiente y un subconjunto de las variables dependientes X1 , X2 , X3

………X n las hipótesis apropiadas son:

H 0 :B i=B2=… Bk=0

H i :B j≠ 0 Al menos de las siguientes variables independientes el rechazo de H 0 :B j=0 implica que el menos una de las variables independientes

Análisis de la varianza para la significación de la regresión en la regresión múltiple

fuente de variabilidad

Suma de cuadrados

Grados de

libertad

Media cuadrática

Fo

regresión SSR= K=   

MSR=MSR

Error SSE= n-k-1=MSE

MSE= 

Total SYY= n-1= 

    SYY (suma total de los cuadrados)SYY= SSR+SSE

El procedimiento prueba para H 0 :B j=0 es calcular Fo=

SRRK

SSE(n−k−1)

=M SRMSE

Se rechaza si H 0 si Fo>Fα , n−k−1

SSE=Y ' Y−B̂ X ' Y

SSE=Y ' Y−(∑

J=i

n

yi)2

n−⟦B̂' x y−

(∑J=i

n

yi)2

n⟧

SSE=SYY-SSR

Page 14: Regresión múltiple

SYY= Y ' Y - (∑J =i

n

yi)2

n

Ejemplo:Probaremos la significancia de la regresión de nuestro problema 15.1

H 0 :B i=B2=0

H i :B j≠ 0 Al menos para una de las variables independientes

SYY=27177.9515-(725.82 )2

n25=6105.9447

SSR=27062.7775-(725.82 )2

n25=5990.7712

SSE=SYY-SSR=6105.9447-5990.7712=115.1735

Fo=2995.39565.2352

=572.17

Puesto que si H 0 Fo>Fα 0.05 ,2,22=3.44

Conclusión.- se rechaza H 0 ya que Fo>Fα 0.05 ,2,22=3.44 Por lo tanto el tiempo de entrega se relaciona con el volumen de entrega o con la distancia o con ambos, sin embargo notamos que esto no necesariamente implica que la relación encontrada, es apropiada para predecir. El tiempo de entrega con o con la función del volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del modelo

Pruebas de coeficientes individuales de regresión.Con frecuencia estamos interesados en probar hipótesis respecto a los coeficientes individuales de regresión, tales pruebas serian útiles en la determinación del valor de cada una de las variables independientes en el modelo de regresión. Por ejemplo, el modelo podría ser más eficaz con la inclusión de variables adicionales, o quizás con la omisión de una o mas variables ya en el modelo.

Región aceptada

Región de rechazo

Page 15: Regresión múltiple

La adición de una variable al modelo de regresión siempre ocasiona que SSR aumente y que SSE disminuya, además, añadir una variable sin importancia al modelo puede incrementar el error de MSE aminorando de este la utilidad del modelo.

La hipótesis para probar la significación de cualquier coeficiente de regresión individual,

Bj, son Ho: Bj = 0 si Ho: Bj = 0 no se rechaza (se acepta), entonces esto indica que Xj puede ser

eliminada del modelo. Hi: B j≠0

La estadística de prueba para esta hipótesis es to= Bj/√Б2 Cjj

La hipótesis nula Ho: Bj = 0 se rechaza si l to l> t α/2, n-k-1

Ejemplo. Probar el coeficiente individual de regresión B2 con un nivel de confianza del 95%

Ho: B2= 0 to= Bj/√Б2 C33 = 0.01253/√(5.2352)(.000015) =4.4767

Hi: B2≠0 si t .25, 22 = 2.074

Entonces 4.4767>2.074

Conclusión: concluimos que la variable X2 (distancia) contribuye de manera significativa al modelo. Nótese que esta prueba mide la contribución parcial de X2 dado que X1 esta en el modelo.

15.6 MEDIDAS DE ADECUACION DEL MODELO

Es posible utilizar diversas técnicas para medir la adecuación del modelo de regresión múltiple. Esta sección presentara varias de estas técnicas. La validación del modelo es una parte importante del proceso de construcción del modelo de regresión múltiple. Un buen artículo respecto a este tema es Snee (1977). Véase también en Montgomery and Peck (1982, capitulo 10).

15.6.1 coeficiente de determinación múltiple

El coeficiente de determinación múltiple R2 se define como

R 2=SSR/ SYY=1−SSE /SYY

R2 es una medida del grado de reducción en la variabilidad de y obtenida mediante el empleo de las variables regresivas X1, X2…. Xk. Como en el caso de la regresión lineal simple, debemos tener 0≤ R2 ≤ 1. Sin embargo un valor grande de R2, independientemente si la variable adicional es o no estadísticamente significativa. De tal modo, es posible en modelos que tienen grandes valores de R2 producir predicciones pobres de nuevas observaciones o estimaciones de la respuesta media.

La raíz cuadrada positiva de R2 es el coeficiente de correlación múltiple entre Y y el conjunto de variables regresoras X1, X2…. Xk. esto es R es una medida de la asociación lineal entre Y y X1, X2…. Xk. cuando k=1, esto es vuelve la correlacion simple entre Y y x.

Ejemplo el coeficiente de determinación múltiple para el modelo de regresión estimado en el ejemplo 15.1 es

R 2=SSR/ SYY=5990.7712/6105.9447=.981137

Esto alrededor del 98.11 porciento de la variabilidad en el tiempo de entrega y ha sido explicada cuando se emplean las dos variables regresoras, esto es volumen de entrega

Page 16: Regresión múltiple

(x1) y distancia (x2). En el ejemplo 14.7 se desarrollo un modelo que relaciona y con x1. El valor de R2 en este modelo es R2 =.963954. Observaciones 15 y 17. O cualquier otra razón para descartar o modificar estos dos. Por tanto al añadir la variable x2 al modelo se incremento R2 de .963954 a puntos.

15.6.2 ANALISIS RESIDUAL

Los residuos del modelo de regresión múltiple estimado. Definidos por yi - Yi, desempeñan un importante papel al juzgar la suficiencia del modelo del mismo modo que lo hacen en regresión lineal simple. Como se noto en la sección 14.5.1. Hay varias graficas residuales que son a menudo útiles. Estas se ilustran en el ejemplo 15.9. También resulta útil graficar los residuos contra variables que no están presentes en el modelo pero que son posibles candidatas para incluirlas. Los patrones de estas graficas, similares a los de la figura 14.5, indican que el modelo puede mejorarse agregando la variable candidata

Ejemplo 15.9 los residuos para el modelo estimado en el ejemplo 15.1 se muestran en la tabla 15.3 estos residuos se grafican en papel de probabilidad normal en la figura 15.2.

No se manifiestan de manera evidente, desviaciones importantes con respecto a la normalidad, aunque los dos residuos mas grandes

Page 17: Regresión múltiple

Los residuos se grafican contra y en la figura 15-3 y contra x1 y x2 en las figuras 15-4 y 15-5 respectivamente. Los dos residuos mas grandes e15 y e17 son evidentes. En la fiugra 15-4 hay cierta indicacion de que el modelo subpredice el tiempo en las salidas con

15-3 Grafica residual contra y

k e Fk=(k-.5)/n

%

1 -3.9 0.02 2

2 -2.9 0.06 6

3 -2.2 0.1 10

4 -2.2 0.14 14

5 -2 0.18 18

6 -1.6 0.22 22

7 -1.5 0.26 26

8 -1.3 0.3 30

9 -1.2 0.34 34

10

-0.6 0.38 38

11

-0.5 0.42 42

12

-0.5 0.46 46

13

-0.4 0.5 50

14

0.03 0.54 54

15

0.15 0.58 58

16

0.32 0.62 62

17

0.49 0.66 66

18

1.11 0.7 70

19

1.2 0.74 74

20

1.56 0.78 78

21

1.57 0.82 82

22

1.93 0.86 86

23

2.15 0.9 90

24

4.33 0.94 94

25

5.82 0.98 98

Page 18: Regresión múltiple

volumenes de entrega pequeños (X1≤6 latas) y volumenes de entrega grandes (X2≥15 latas), y sobre predice el tiempo en salidas con volumenes de entrega intermedios (7≤x1≤14 latas). La misma impresion se obtiene de la figura 15-3. Es posible que la reacción entre el tiempo y el volumen de entrega no sea lineal (lo que requiere que un término que involucra a x12 por ejemplo se agregue al modelo), o que otras variables regresoras no presentes en el modelo afecten la respuesta. Veremos mas adelante que una tercera variable regresora se requiere para modelar en forma adecuada estos datos.

Figura 15-4 Grafica residual contra x1

Page 19: Regresión múltiple

Figura 15-2 Grafica residual contra x2