ejercicios estadistica
DESCRIPTION
estadística inf.TRANSCRIPT
1.
TECNOLÓGICO NACIONAL DE MÉXICO
INSTITUTO TECNOLÓGICO DE ACAPULCO
“Ingeniería en Gestión Empresarial”
Ciencias Económico – Administrativas
“ESTADISTICA INFERENCIAL II”
UNIDAD 1
EJERCICIO 12.5
a)
b) Calcule la ecuación de regresión
y=26.7+0.572 x
c) y=26.7+0.572(400)
y=228.82
y=228.82x1000
y=228826
d)
b0 Es la intersección en y, representa el promedio de las ventas auditadas cuando
las reportadas es igual a cero
b1 Es el cambio esperado de las ventas auditadas por unidad de cambio en las
ventas reportadas en 0.572
e) r2=90.1%
El 90.1% de variación de las ventas auditadas se explica por la variabilidad de las ventas reportadas indica relación lineal positiva.
f) Prueba T
α=0.05
H 0 :B1=0
H 1:B1≠0
Estadístico de prueba
t=8.56
gl=10−2=8
tc>t 8.56>2.31
Por lo tanto rechazamos H 0, y concluimos que existe una relación lineal entre las variables órdenes y el peso del correo
Prueba F
H 0 :B1=0
H 1:B1≠0
F= 73.22
fc>fu 73.22>5.32
Por lo tanto rechaza H 0 y se concluye las ventas auditadas con las ventas reportadas.
g) Análisis residual y no violación de los supuestos
1) Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.
2) Linealidad y Homocedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni Homocedasticidad.
3) De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.
4) El histograma no muestra una distribución normal.
h) Durbin Watson no se aplica porque los datos no se conectan en periodo de tiempo
i) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%
Sb1=0.06683b1=0.572t n−2=2.31
b1± tn−2Sb1
0.572± (2.31 ) (0.06683 )0.572+0.1543=0.72630.572−0.1543=0.4177
Intervalo de confianza (41.77 ,72.63)
Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 41.77 ,72.63, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre las ventas auditadas y las reportadas
EJERCICIO 12.6 Análisis de regresión: Horas de trabajo vs. Pies cúbicos
La ecuación de regresión esHoras de trabajo = - 2.37 + 0.0501 Pies cúbicos
Predictor Coef Coef. De EE T PConstante -2.370 2.073 -1.14 0.261Pies cúbicos 0.050080 0.003031 16.52 0.000
S = 5.03143 R-cuad. = 88.9% R-cuad. (Ajustado) = 88.6%
Análisis de varianza
Fuente GL SC MC F PRegresión 1 6910.7 6910.7 272.99 0.000Error residual 34 860.7 25.3Total 35 7771.4
Estadístico de Durbin-Watson = 1.65068
a) Construir diagrama de dispersiónb) Calcular la ecuación de regresiónc) Predecir los promedios indicados en cada uno de los ejercicios.d) Interprete el significado de b0 y b1
e) Calcular r2 e interprete el resultadof) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de
significancia de ∝0.05g) Realizar análisis residual y compruebe la no violación de los supuestosh) En los problemas que sea necesario aplique la prueba del estadístico de
Durbin Watsoni) Estimar el intervalo de confianza para la pendiente con un nivel de
confianza de 95%
a)
b) y= -2.37 + 0.0501 x Horas de trabajo = - 2.37 + 0.0501 Pies cúbicos
c) y= -2.37 + 0.0501 (500) y= -2.37+25.05 =22.68Horas de trabajo.
d)
b0: Es la intersección en el eje y. Representa el promedio de las horas de trabajo cuando los pies cúbicos son iguales a cero.
b1: La pendiente nos indica el cambio en los pies cúbicos de cada unidad por cada unidad de cambio. Es decir, por cada unidad de cambio en los pies cúbicos hay un aumento de 0.0501unidades en horas de trabajo
e) r2=88.9% significa que el 88.9% de la variación de las horas trabajadas se explica por la variabilidad en los pies cúbicos de la mudanza. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice horas trabajadas en un 88.9% y el otro 11.1% se debe a otros factores.
f) Prueba t
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadístico de prueba t= 16.52
Con un nivel de significancia de ∝=0.05, rechazamos H 0 :B1=0 , por lo tanto
aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre las horas de trabajo y los pies cúbicos de la mudanza. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.
Valor P
De acuerdo al valor p se rechaza H 0 y se acepta H 1 ,porque p < ∝; 0.000<0.05
16.52
Prueba f
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadística de prueba f= 272.99
Se obtiene un valor 272.99 > 4.13. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre las horas de trabajo y los pies cúbicos de la mudanza.
g)
Prueba de normalidad, de acuerdo a la gráfica como los datos están cerca de la pendiente concluimos que no se viola el supuesto de normalidad.
Observando la gráfica no hay patrones de comportamiento por lo tanto se concluye que las varianzas son iguales, por tal razón no hay razón, para sospechar una violación al supuesto de independencia y homogeneidad.
h) Puesto que el valor DW=1.65068 se encuentra entre 1.5 y 2.5, podemos asumir que los residuos son independientes.
I) b1± tn−2 s b1
b1= 0.0501 n=36 gl=n−2=34 tn-2 = t 34=2.302 sb1=0.003031
0.0501 ± (2.302) (0.003031)
L.S=0.0501 + 0.00697=0.057
L.I=0.0501 - 0.00697=0.043
Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (0.043,0.057) y como estos valores están por encima del cero, se concluye que si existe una relación entre las horas de trabajo y los pies cúbicos de la mudanza.
Esto indica que por cada aumento de y2, se estima que las horas trabajadas se incrementan a por lo menos 0.043hrs. Pero no más de 0.057hrs.
EJERCICIO 12.7
a)
b) Calcule la ecuación de regresión
y=0.191+0.0297 x
c) y=0.191+0.0297 (50 )
y=0.191+1.485
y=1.676
d)
b0 Es la intersección en y, representa el promedio de las ordenes en miles cuando
el peso del correo en libras es igual a cero
b1 Es el cambio esperado de las órdenes en miles en el peso del correo en libras
en 0.0297
e) r2=97.2%
El 97.2% de variación de las ordenes en miles se explica por la variabilidad del peso del correo en libras indica relación lineal positiva
f) Prueba T
α=0.05
H 0 :B1=0
H 1:B1≠0
Estadístico de prueba
t=28.82
gl=25−2=23
tc>t 28.82>2.07
Por lo tanto rechazamos H 0, y concluimos que existe una relación lineal entre las variables órdenes y el peso del correo
Prueba F
H 0 :B1=0
H 1:B1≠0
F= 830.82
fc>fu 830.82>4.28
Se concluye que las órdenes se relacionan con el peso del correo.
g) Análisis residual y no violación de los supuestos
5) Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.
6) Linealidad y Homoscedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni Homoscedasticidad.
7) De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.
8) El histograma no muestra una distribución normal.
h) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%
Sb1=0.001030b1=0.0297t n−2=2.07
b1± tn−2Sb1
0.0297± (2.07 ) (0.001030 )0.0297+0.00213=0.03180.0297−0.00213=0.0275
Intervalo de confianza (0.0275 ,0.0318)
Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre0.0275 ,0.0318, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre las ordenes y el peso del correo
EJERCICIO 12.8Análisis de regresión: Valor estimado vs. Ingresos anuales
La ecuación de regresión esValor estimado = - 246 + 4.19 Ingresos anuales
Coef.Predictor Coef de EE T PConstante -246.26 26.04 -9.46 0.000Ingresos anuales 4.1897 0.1957 21.41 0.000
S = 33.7876 R-cuad. = 94.2% R-cuad. (Ajustado) = 94.0%
Análisis de varianza
Fuente GL SC MC F PRegresión 1 523174 523174 458.28 0.000Error residual 28 31965 1142Total 29 555139
Estadístico de Durbin-Watson = 1.61617
a) Construir diagrama de dispersiónb) Calcular la ecuación de regresiónc) Predecir los promedios indicados en cada uno de los ejercicios.d) Interprete el significado de b0 y b1
e) Calcular r2 e interprete el resultadof) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de
significancia de ∝0.05g) Realizar análisis residual y compruebe la no violación de los supuestosh) En los problemas que sea necesario aplique la prueba del estadístico de
Durbin Watsoni) Estimar el intervalo de confianza para la pendiente con un nivel de
confianza de 95%
a)
b) y= -246 + 4.19xValor estimado= -246 + 4.19 Ingresos anuales
c) y= -246 + 4.19 (150000000) y= -246+628500000= 628499754
d)
b0: Es la intersección en el eje y. Representa el promedio del valor estimado cuando los ingresos anuales son igual a cero.
b1: La pendiente nos indica el cambio en el valor estimado de cada unidad por cada unidad de cambio en los ingresos anuales. Es decir, por cada unidad de cambio en los ingresos anules hay un aumento de 0.0297unidades en el valor estimado
e) r2=94.2% significa que el 94.2% de la variación del valor de las franquicias se explica por la variabilidad en los ingresos anuales. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice el valor de las franquicias en un 94.2% y el otro 5.8% se debe a otros factores.
f) Prueba t
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadística de prueba t= 21.41
Con un nivel de significancia de ∝=0.05, rechazamos H 0 :B1=0 , por lo tanto
aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre el valor de las franquicias y los ingresos anules. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.
Valor P
De acuerdo al valor p se rechaza H 0 y se acepta H 1 ,porque p < ∝; 0.000<0.05
Prueba f
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadística de prueba f= 458.28
Se obtiene un valor 458.28 > 4.196. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre el valor de la franquicia y los ingresos anuales.
g)
Prueba de normalidad, de acuerdo a la gráfica como los datos están cerca de la pendiente concluimos que no se viola el supuesto de normalidad.
Observando la gráfica no hay patrones de comportamiento por lo tanto se concluye que las varianzas son iguales, por tal razón no hay razón, para sospechar una violación al supuesto de independencia y homogeneidad.
h) Puesto que el valor DW=1.61617 se encuentra entre 1.5 y 2.5, podemos asumir que los residuos son independientes.
I) b1± tn−2 s b1
b1= 4.19 n=30gl=n−2=28 tn-2 = t 28=2.048 sb1=0.1957
4.19 ± (2.048) (0.1957)
L.S=4.19 + 0.4007=4.59 4.59x1000000=4590000
L.I=4.19 - 0.4007=3.79 3.79x1000000=3790000
Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (3.79, 4.59) y como estos valores están por encima del cero, se concluye que si existe una relación entre el valor de la franquicia y los ingresos anuales.
Esto indica que por cada aumento de y2, se estima que el valor de la franquicia se incrementan a por lo menos $3790000 dólares pero no más de $4590000 dólares.
EJERCICIO 12.9 Análisis de regresión: Renta mensual vs. Tamaño
La ecuación de regresión esRenta mensual = 177 + 1.07 Tamaño
Coef.Predictor Coef de EE T PConstante 177.1 161.0 1.10 0.283Tamaño 1.0651 0.1376 7.74 0.000
S = 194.595 R-cuad. = 72.3% R-cuad. (Ajustado) = 71.1%
Análisis de varianza
Fuente GL SC MC F PRegresión 1 2268777 2268777 59.91 0.000Error residual 23 870949 37867Total 24 3139726
Estadístico de Durbin-Watson = 2.43833
a) Construir diagrama de dispersiónb) Calcular la ecuación de regresiónc) Predecir los promedios indicados en cada uno de los ejercicios.d) Interprete el significado de b0 y b1
e) Calcular r2 e interprete el resultadof) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de
significancia de ∝0.05g) Realizar análisis residual y compruebe la no violación de los supuestosh) En los problemas que sea necesario aplique la prueba del estadístico de
Durbin Watsoni) Estimar el intervalo de confianza para la pendiente con un nivel de
confianza de 95%
a)
b) y= 177+ 1.07xRenta mensual= 177 + 1.07 Tamaño en pies
c) y= 177 + 1.07 (1000) y= 177+1070= $1247
y= 177 + 1.07 (1200) y= 177+1284= $1461A Jim y a Jennifer les conviene más firmar el contrato de 1200 pies cuadrados y renta mensual de $1425 ya que la renta es menos que la esperada
d)
b0: Es la intersección en el eje y. Representa el promedio la renta mensual cuando el tamaño de pies cuadrados es igual a cero.
b1: La pendiente nos indica el cambio en la renta mensual de cada unidad por cada unidad de cambio en el tamaño. Es decir, por cada unidad de cambio en el tamaño hay un aumento de 1.07 unidades en la renta mensual
e) r2=72.3% significa que el 72.3% de la variación de la renta mensual se explica por la variabilidad en el tamaño. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice la renta mensual en un 72.3% y el otro 27.7% se debe a otros factores.f) Prueba t
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadística de prueba t= 7.74
Con un nivel de significancia de ∝=0.05, rechazamos H 0 :B1=0 , por lo tanto
aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre la renta mensual y el tamaño. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.
Valor P
De acuerdo al valor p se rechaza H 0 y se acepta H 1 ,porque p < ∝; 0.000<0.05
Prueba f
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadística de prueba f= 59.91
Se obtiene un valor 59.91 > 4.279. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre la renta mensual y el tamaño.
g)
Prueba de normalidad, de acuerdo a la gráfica como los datos están cerca de la pendiente concluimos que no se viola el supuesto de normalidad.
Observando la gráfica no hay patrones de comportamiento por lo tanto se concluye que las varianzas son iguales, por tal razón no hay razón, para sospechar una violación al supuesto de independencia y homogeneidad.
h) Puesto que el valor DW=2.43833 se encuentra entre 1.5 y 2.5, podemos asumir que los residuos son independientes.
I) b1± tn−2 s b1
b1= 1.07 n=25gl=n−2=23 tn-2 = t 23=2.068 sb1=0.1376
1.07 ± (2.068) (0.1376)
L.S=1.07 + 0.284=1.354
L.I=1.07 - 0.284=0.786
Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (0.786, 1.354) y como estos valores están por encima del cero, se concluye que si existe una relación entre la renta mensual y el tamaño.
Esto indica que por cada aumento de y2, se estima que la renta mensual se incrementan a por lo menos $0.786 pero no más de $1.354.
EJERCICIO 12.74 Análisis de regresión: Tiempo de entrega vs. Numero de cajas
La ecuación de regresión esTiempo de entrega = 24.8 + 0.140 Numero de cajas
Predictor Coef Coef. De EE T PConstante 24.835 1.054 23.56 0.000Numero de cajas 0.140026 0.005627 24.88 0.000
S = 1.98650 R-cuad. = 97.2% R-cuad. (Ajustado) = 97.0%
Análisis de varianza
Fuente GL SC MC F PRegresión 1 2443.5 2443.5 619.20 0.000Error residual 18 71.0 3.9Total 19 2514.5
Estadístico de Durbin-Watson = 1.79361
a) Construir diagrama de dispersiónb) Calcular la ecuación de regresiónc) Predecir los promedios indicados en cada uno de los ejercicios.d) Interprete el significado de b0 y b1
e) Calcular r2 e interprete el resultadof) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de
significancia de ∝0.05g) Realizar análisis residual y compruebe la no violación de los supuestosh) En los problemas que sea necesario aplique la prueba del estadístico de
Durbin Watsoni) Estimar el intervalo de confianza para la pendiente con un nivel de
confianza de 95%
a)
b) y= 24.8+ 0.140xTiempo de entrega= 24.8 + 0.140 Numero de cajas
c) y= 24.8 + 0.140 (150) y= 24.8+21= 45.8min
d)
b0: Es la intersección en el eje y. Representa el promedio del tiempo de entrega cuando el número de cajas es igual a cero.
b1: La pendiente nos indica el cambio en el tiempo de entrega de cada unidad por cada unidad de cambio en el tamaño. Es decir, por cada unidad de cambio en el número de cajas hay un aumento de 0.140 unidades en el tiempo de entrega.
e) r2=97.2% significa que el 97.2% de la variación del tiempo de entrega se explica por la variabilidad en el número de cajas. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice el tiempo de entrega en un 97.2% y el otro 2.8% se debe a otros factores.
f) Prueba t
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadística de prueba t= 24.88
Con un nivel de significancia de ∝=0.05, se rechaza H 0 :B1=0 , por lo tanto
aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre el tiempo de entrega y el número de cajas. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.
Valor P
De acuerdo al valor p se rechaza H 0 y se acepta H 1 ,porque p < ∝; 0.000<0.05
Prueba f
H 0 :B1=0(Noexiste relaciónlineal)
H 1:B1≠0(Existe relación lineal)
Estadística de prueba f= 619.20
Se obtiene un valor 619.20 > 4.41. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre el tiempo de entrega y el número de cajas.
g)
Prueba de normalidad, de acuerdo a la gráfica como los datos están cerca de la pendiente concluimos que no se viola el supuesto de normalidad.
Observando la gráfica no hay patrones de comportamiento por lo tanto se concluye que las varianzas son iguales, por tal razón no hay razón, para sospechar una violación al supuesto de independencia y homogeneidad.
h) Puesto que el valor DW=1.79361 se encuentra entre 1.5 y 2.5, podemos asumir que los residuos son independientes. No hay correlación.
i) b1± tn−2 s b1
b1= 0.140 n=20gl=n−2=18 tn-2 = t 18=2.10 sb1=0.005627
0.140 ± (2.10) (0.005627)
L.S=0.140 + 0.0118= 0.1518
L.I=0.140 - 0.0118= 0.1282
Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (0.1282, 0.1518) y como estos valores están por encima del cero,
se concluye que si existe una relación entre el número de cajas y el tiempo de entrega.
Esto indica que por cada aumento de y2, se estima que el tiempo de entrega se incrementan a por lo menos 0.1218min pero no más de 0.1518min.
EJERCICIO 12.75Una casa de correduría desea predecir el número de negocios realizados por día utilizando el número de llamadas telefónicas entrantes como una variable predictiva. Los datos fueron recolectados a lo largo de un periodo de 35 días. TRADES
DIAS LLAMADAS NEGOCIOS1 2591 4172 2146 3213 2185 3624 2245 3645 2600 4426 2510 3867 2394 3708 2486 3769 2483 46310 2297 38911 2106 30212 2035 26613 1936 339
14 1951 36915 2292 40316 2094 31917 1897 30618 2237 39719 2328 36520 2078 33021 2134 31222 2192 34023 1965 33924 2147 36425 2015 29526 2046 29227 2073 37928 2032 29429 2108 32930 1923 27431 2069 32632 2061 30633 2010 35234 1913 29035 1904 283
A) Construir un diagrama de dispersión
26002500240023002200210020001900
450
400
350
300
250
Calls
Trad
esGráfica de dispersión de Trades vs. Calls
B) Calcular la ecuación de regresión
R. TRADES=−63.0+0.1890CALLS
O
y=−63.0+0.1890 x
C) Predecir los promedios indicadas en cada uno de los ejercicios. (prediga el número de negocios realizados para un día en el que el número de llamadas telefónicas entrantes fue de 2000.
R.
y=−63.0+0.1890 (2000 )=−63.0+378=¿
y=315 numerodenegocio por llamadas telefonicas
D) Interprete el significado de b0 y b1
R.
b0= Representa la intersección el número de negocios (y), cuando el número de
llamadas (x) es cero, será de -63.0.
b1= La pendiente representa el cambio esperado en el número de llamadas (y) por
unidad de cambio en el número de llamadas (x), por cada cambio en el número de negocios, el número de llamadas incrementa en un 0.1890.
E) Calcular r2 de interprete el resultado
R. r2= 63.01%
Significa que el 63.01 % de la variación del número de negocios se explica por la variabilidad del número de llamadas, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice el número de negocios en un 63.01 % y el otro 36.99 se debe a otros factores.
F) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05
R.
Prueba t
H o :B1=0
H 1:B1≠0
t c=7.50
t c>tα2
=7.50>2.0345
Se rechaza la hipótesis nula (H o) y se concluye que existe una relación lineal entre el número de negocios y las llamadas.
Prueba F
f=56.21
t c=7.50
1.2
1.0
0.8
0.6
0.4
0.2
0.0
X
Den
sida
d
4.139
0.05
0
Gráfica de distribuciónF, df1=1, df2=33
f >f μ=56.21>4.139
Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o) y se concluye que el número de negocios se relacionan con el número de llamadas.
G) Realizar análisis residual y compruebe la no violación de los supuestos
R.
f=56.21
80400-40-80
99
90
50
10
1
Residuo
Porc
enta
je
420390360330300
50
25
0
-25
-50
Valor ajustado
Res
iduo
60300-30-60
8
6
4
2
0
Residuo
Frec
uenc
ia
35302520151051
50
25
0
-25
-50
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Trades
Explicación de los supuestos
De acuerdo a la gráfica de probabilidad normal, los datos están cerca de la pendiente, por lo tanto se concluye que no se viola el supuesto de normalidad, aunque el histograma no este distribuido de manera normal.En la gráfica vs. Ajuste, no se observa ningún patrón aparente en los residuos, los puntos están en una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.En la gráfica de Vs. Orden no se observa un patrón, por lo tanto no se viola el supuesto de independencia, pero se analizara más adecuadamente una prueba del estadístico de Durbin Watson.
H) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson
R. D = 1.96073
D>du=1.96073>1.52nohay evidenciade autocorrelación∴elmetodo deminimoscuadrados es apropiado
I) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%
R.
b1± tn−2Sb1
0.1890±(2.0345)(0.0252)
0.1890+(2.0345)(0.0252)=0.2402
0.1890−(2.0345)(0.0252)=0.1377
Intervalo de confianza
(0.2402 ,0.1377 )
Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (0.22402, 0.1377) estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el número de negocios y el número de las llamadas.
Esto indica que por cada aumento de los pies cúbicos se estima que las horas de trabajo se incrementen a por lo menos 0.1377 pero no más de 0.2402.
EJERCICIO 12.76Usted desea desarrollar un modelo para predecir el precio de venta de casas con base en el valor del avaluó. Se selecciona una muestra de 30 casas unifamiliares recientemente vendidas en una pequeña ciudad, para estudiar la relación entre el precio de venta (en miles de dólares) y el precio del avaluó (en miles de dólares). Las casa en la ciudad fueron reevaluadas a su valor total un año antes del estudio. Los resultados se encuentran en el ejercicio HOUSE1.
Price Value New Time94.10 78.17 1 10101.90 80.24 1 1088.65 74.03 0 11115.50 86.31 0 287.50 75.22 0 572.00 65.54 0 491.50 72.43 0 17113.90 85.61 0 1369.34 60.80 0 696.90 81.88 1 596.00 79.11 0 761.90 59.93 0 493.00 75.27 0 11109.50 85.88 1 1093.75 76.64 0 17106.70 84.36 0 1281.50 72.94 0 594.50 76.50 1 1469.00 66.28 0 196.90 79.74 1 386.50 72.78 0 1497.90 77.90 1 1283.00 74.31 0 1197.30 79.85 1 12100.80 84.78 1 297.90 81.61 1 690.50 74.92 0 1297.00 79.98 1 492.00 77.96 0 995.90 79.07 1 12
A) Construir un diagrama de dispersión
Análisis de regresión: Precio vs. Valor del avaluo
La ecuación de regresión esPrecio = - 44.2 + 1.78 Valor del avaluo
Predictor Coef Coef. de EE T PConstante -44.172 7.346 -6.01 0.000Valor del avaluo 1.78171 0.09546 18.66 0.000
S = 3.47493 R-cuad. = 92.6% R-cuad.(ajustado) = 92.3%
Análisis de varianza
Fuente GL SC MC F PRegresión 1 4206.7 4206.7 348.37 0.000Error residual 28 338.1 12.1Total 29 4544.8
Estadístico de Durbin-Watson = 1.81487
B)
12011010090807060
90
85
80
75
70
65
60
Price
Val
ue
Gráfica de dispersión de Value vs. Price
C) Calcular la ecuación de regresión
R. y=28.65+0.5195 x
O
avaluo=28.65+0.5195 precio
D) Predecir los promedios indicadas en cada uno de los ejercicios. (prediga el valor de avalúo para una casa cuyo valor es de $70,000.
y=28.65+0.5195 x=28.65+0.5195 (70000 )=$36,393.65
E) Interprete el significado de b0 y b1
R.
b0= Representa la intersección en el valor del avalúo (y), cuando el precio de la
casa (x) es cero, será de 28.65.
b1= La pendiente representa el cambio esperado en el valor del avalúo (y), por
unidad de cambio en el precio de la casa (x), por cada cambio en el valor del avalúo, el precio de la casa incrementara un 0.5195.
F) Calcular r2 de interprete el resultado
R.
r2 = 92.56%
Significa que el 92.56% de la variación del valor del avalúo se explica por la variabilidad del precio de la casa, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice el valor del avalúo en 92.56% y el otro en 7.44 % se debe a otros factores.
G) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05
R.
Prueba t
H o :B1=0
H 1:B1≠0
gl=28
Estadisticode pruebat c=18.66
0.4
0.3
0.2
0.1
0.0
X
Den
sida
d
-2.048
0.025
2.048
0.025
0
Gráfica de distribuciónT, df=28
t c>tα2
=18.66>2.048
Se rechaza la hipótesis nula y se concluye que existe una relación lineal entre el valor del avalúo y el precio de la casa.
Prueba F
H o :B1=0
H 1:B1≠0
gl=28
f=348.37
1.2
1.0
0.8
0.6
0.4
0.2
0.0
X
Den
sida
d
4.196
0.05
0
Gráfica de distribuciónF, df1=1, df2=28
f >f μ=348.37>4.196
Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye que el valor del avalúo se relacionan con el precio de las casa.
H) Realizar análisis residual y compruebe la no violación de los supuestos
R.
f=348.37
5.02.50.0-2.5-5.0
99
90
50
10
1
Residuo
Porc
enta
je
90807060
4
2
0
-2
-4
Valor ajustado
Res
iduo
420-2-4
8
6
4
2
0
Residuo
Frec
uenc
ia
30282624222018161412108642
4
2
0
-2
-4
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Value
Explicación de los supuestos
De acuerdo a la gráfica de probabilidad normal, los datos están cerca de la pendiente, y se observa que el histograma está distribuido de manera normal, si existieran más datos se podría apreciar perfectamente, por lo tanto se concluye que no se viola el supuesto de normalidad. En la gráfica de vs. Ajustes, no se observa un patrón evidente en los residuos, y los puntos están distribuido a una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.En la gráfica de vs. Orden no se observa un modelo (patrón), por lo tanto no se viola el supuesto de independencia
I) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson
R. No es necesario realizar la prueba de Durbin Watson, porque el cálculo no requiere o especifica periodos de tiempos anteriores al interesado.
J) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%R.
b1± tn−2Sb1
0.5195±(2.048)(0.0278)
0.5195+ (2.048 ) (0.0278 )=0.5764
0.5195−(2.048 ) (0.0278 )=0.4625
Intervalo de confianza
(0.4625 ,0.5764 )=(462.5 ,576.4)
Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (462.5 ,576.4), estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el valor del avalúo y el precio de la casas.
Esto indica que por cada aumento del valor del avalúo se estima que el precio de la casa se incremente a por lo menos 462.5 pero no más de 576.4.
EJERCICIO 12.77 Usted desea desarrollar un modelo de predicción del valor del avalúo de las casa con base en un área de calefacción. Se selecciona una muestra de 15 casas unifamiliares en una ciudad. El valor de avalúo (en miles de dólares) y el área de calefacción delas casa (en miles de pies cuadrados) se registran con los siguientes resultados: HOUSE2.
Value HeatArea Age84.4 2.00 3.4277.4 1.71 11.5075.7 1.45 8.3385.9 1.76 0.0079.1 1.93 7.4270.4 1.20 32.0075.8 1.55 16.0085.9 1.93 2.0078.5 1.59 1.7579.2 1.50 2.7586.7 1.90 0.0079.3 1.39 0.0074.5 1.54 12.5883.8 1.89 2.7576.8 1.59 7.17
A) Construir un diagrama de dispersión R.
2.01.91.81.71.61.51.41.31.21.1
88
86
84
82
80
78
76
74
72
70
HeatArea
Val
ueGráfica de dispersión de Value vs. HeatArea
B) Calcular la ecuación de regresiónR.
avaluo=51.92+16.63airesacondicionadoy=51.92+16.63 x
C) Predecir los promedios indicadas en cada uno de los ejercicios. (prediga el valor de avaluó de las casas con un área de calefacción de 1750 pies cuadrados.R.
y=51.92+16.63 x=51.92+16.63 (1750 )=29,154.42
D) Interprete el significado de b0 y b1
R.
b0= Representa la intersección en el valor del avalúo de las casas (y),
cuando el área de calefacción (x) es cero, será de 51.92 (miles)
b1= La pendiente representa el cambio esperado en el valor del avalúo de
las casas (Y) por unidad de cambio en el área de calefacción (X), por cada cambio en el valor del avalúo de las casas, el área de calefacción incrementara en un 16.63.
E) Calcular r2 de interprete el resultado
R.
r2=65.93%
Significa que el 65.93% de la variación del valor del avalúo de las casas se explica por la variabilidad del área de calefacción, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice el valor el avalúo en un 65.93% y el otro 34.07% se debe a otros factores.
F) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05
R.
Prueba t
H o :B1=0
H 1:B1≠0
gl=13
Estadisticode pruebat c=5.02
0.4
0.3
0.2
0.1
0.0
X
Den
sida
d
-2.160
0.025
2.160
0.025
0
Gráfica de distribuciónT, df=13
t c>tα2
=5.02>2.160
Se rechaza la hipótesis nula (H o)y se concluye que existe una relación lineal entre el valor del avalúo de las casas y el área de calefacción.
Prueba F
H o :B1=0
H 1:B1≠0
gl=13
f=25.16
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
X
Den
sida
d
4.667
0.05
0
Gráfica de distribuciónF, df1=1, df2=13
f >f μ=25.16>4.667
Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye que el valor del avalúo de las casas y el área de calefacción.
G) Realizar análisis residual y compruebe la no violación de los supuestos
R.
f=25.16
5.02.50.0-2.5-5.0
99
90
50
10
1
Residuo
Porc
enta
je
85807570
5.0
2.5
0.0
-2.5
-5.0
Valor ajustado
Res
iduo
420-2-4
3
2
1
0
Residuo
Frec
uenc
ia
151413121110987654321
5.0
2.5
0.0
-2.5
-5.0
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Value
Explicación de los supuestos
Prueba de normalidad: De acuerdo a la gráfica de probabilidad normal, los datos no están completamente cerca de la pendiente, por lo tanto se concluye que se viola el supuesto de normalidad, y el histograma no este distribuido de manera normal. Se necesitan realizar más pruebas.
Prueba de linealidad y homocedasticidad: En la gráfica de vs. Ajustes, no se observa un patrón evidente en los residuos, y los puntos están en una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.
Prueba de independencia: En la gráfica de vs. Orden no se observa un modelo (patrón), por lo tanto no se viola el supuesto de independencia.
H) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson
R. No es necesario realizar la prueba de Durbin Watson, porque el cálculo no requiere o especifica periodos de tiempos anteriores al interesado.
I) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%
R.
b1± tn−2Sb1
16.63±(2.160)(3.32)
16.63+(2.160 ) (3.32 )=23.80
16.63−(2.160 ) (3.32 )=9.45
Intervalo de confianza
(23.80,9 .45 )=(23,800,9450)
Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (23,800, 9450), estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el valor del avalúo de las casas y el área de la calefacción.
Esto indica que por cada aumento del valor del avalúo de la casa se estima que el área de calefacción se incremente a por lo menos 9450 pero no más de 23800.
EJERCICO 12.78 Al director de postgrado en una facultad de administración le gustaría predecir el índice de puntos de calificación (GPI) de los estudiantes en un programa de MBA con base en la puntuación de la prueba de aptitudes gerenciales del graduado (GMAT). Se seleccionó una muestra de 20 estudiantes que habían completado dos años de ese programa. Los resultados son los siguientes:
Observación GMAT GPI1 688 3.722 647 3.443 652 3.214 608 3.295 680 3.916 617 3.287 557 3.028 599 3.139 616 3.45
10 594 3.3311 567 3.0712 542 2.8613 551 2.9114 573 2.7915 536 3.0016 639 3.5517 619 3.4718 694 3.6019 718 3.8820 759 3.76
A) Construir diagrama de dispersión
B) Calcular la ecuación de regresión
R. y=76.7+163.8GMAT
C) Predecir el GPI para un estudiante con una puntuación GMAT 600
R. y=76.8+(163.8) (600 )
y=76.8+98,280
y=98,356.8
D) Interprete el significado de b0 y b1
R.b0 Representa la intersección del GPI (Y) cuando (X) el GMAT tiene un valor igual a cero. No es válido, si no hay medida no hay validez.
R. b1 La pendiente representa el cambio esperado de (Y) por el GMAT (X), por cada proceso el tiempo incrementaran en un 163.8
E) Calcular r2 e interprete el resultado
R. r2=78.66%
Significa que el 78.66% de la variación de los puntos de calificación indica una relación lineal entre las dos variables. El modelo de regresión predice que las
4.03.83.63.43.23.02.8
750
700
650
600
550
500
GMAT
GPI
Gráfica de dispersión de GPI vs. GMAT
calificaciones en un 78.66% y el otro 21.34% de variación se deben a otros factores
F) Realizar inferencias sobre la pendiente prueba t y prueba f con nivel de significancia de ∝0.05
Prueba t
H o :B1=0
H 1:B1≠0
gl=18
t c=8.43
t c>tα2
=8.43>2.101
0.4
0.3
0.2
0.1
0.0
X
Den
sida
d
-2.101
0.025
2.101
0.025
0
Gráfica de distribuciónT, df=18
Se rechaza la hipótesis nula (H o)y se concluye que existe una relación lineal entre las órdenes de correo y las libras del peso del correo
Prueba F
H o :B1=0
H 1:B1≠0
gl=18
f=71.03
1.0
0.8
0.6
0.4
0.2
0.0
X
Den
sida
d
0.001010
0.025
5.978
0.025
0
Gráfica de distribuciónF, df1=1, df2=18
f >f μ=71.03>5.978
Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye que GPI se relacionan con GMAT.
G) Realizar análisis residual y compruebe la no violación de los supuestos
R.
50250-25-50
99
90
50
10
1
Residuo
Porc
enta
je
3002001000
50
25
0
-25
-50
Valor ajustado
Res
iduo
40200-20-40
10.0
7.5
5.0
2.5
0.0
Residuo
Frec
uenc
ia
30282624222018161412108642
50
25
0
-25
-50
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Process
Prueba de normalidad: De acuerdo a las gráficas los datos de la pendiente están cerca de la pendiente y también se hacen una gráfica de gauss, por lo tanto podemos decir que no se viola el supuesto de normalidad.
Prueba de linealidad y homocedasticidad: No existe patrón evidente en los residuos, por lo tanto decimos que no se viola el supuesto de linealidad y homocedasticidad.
Prueba de independencia: No se halla un patrón (modelo), entonces se conoce que no se viola el supuesto de independencia.
H) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson
R. D.W = 1.64219
D>du=1.64219>1.41nohay evidenciade autocorrelación∴elmetodo deminimoscuadrados es apropiado
I) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%
R.
b1± tn−2Sb1
163.8±(2.101)(19.4)
163.8+(2.101)(19.4)=203.7594
163.8−(2.101 ) (19.4 )=122.2406
Intervalo de confianza
(122.2406 ,203.7594 )
Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (122.2406 ,203.7594) estos valores están por
encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre las GPI y el GMAT.
Esto indica que por cada aumento GPI se incrementen a por lo menos 122.2406 pero no más de 203.7594
EJERCICIO 12.79El gerente del departamento de compras en una gran organización bancaria quisiera desarrollar un modelo para predecir el tiempo que toma procesar facturas. Se recolectaron datos provenientes de una muestra de 30 días y se registró el número de facturas procesadas y el tiempo en que se completaron, en horas.
Process Time149 2.160 1.8
188 2.319 0.3
201 2.758 1.077 1.7
222 3.1181 2.830 1.0
110 1.583 1.260 0.825 0.4
173 2.0169 2.5190 2.9
233 3.4289 4.145 1.2
193 2.570 1.8
241 3.8103 1.5163 2.8120 2.5201 3.3135 2.080 1.729 0.5
A) Construir diagrama de dispersiónR.
43210
300
250
200
150
100
50
0
Time
Proc
ess
Gráfica de dispersión de Process vs. Time
B) Ecuación de regresiónR. y=0.402+0.012607 Process
C) Predecir la cantidad de tiempo que tomaría procesar 150 facturas.
y=0.402+0.012607(150)y=0.402+1.89105y=2.292
D) Interprete el significado de b0 y b1
R .b0 Representa la intersección del tiempo (Y) cuando (X) el proceso tiene un valor igual a cero. No es válido, si no hay medida no hay validez.
b1 La pendiente representa el cambio esperado (Y) por el tiempo (X), por cada proceso el tiempo incrementaran en un 0.012607.
D) Calcular r2 e interprete el resultado
R.
r2=88.86% Significa que el 88.86% de la variación de los procesos se explica por
la variabilidad del tiempo, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice las horas de trabajo en un 88.86% y el otro 11.14% se debe a otros factores.
E) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05
H o :B1=0H 1:B1≠0
gl=28Estadisticode pruebat c=15.24
0.4
0.3
0.2
0.1
0.0
X
Den
sida
d
-2.048
0.025
2.048
0.025
0
Gráfica de distribuciónT, df=28
t c>tα2
=15.24>2.048
Se rechaza la hipótesis nula (H o)y se concluye que existe una relación lineal entre el tiempo y el proceso
Prueba F
H o :B1=0
H 1:B1≠0
gl=28
f=232.22
1.2
1.0
0.8
0.6
0.4
0.2
0.0
X
Den
sida
d
4.196
0.05
0
Gráfica de distribuciónF, df1=1, df2=28
f >f μ=73.22>5.318
Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye el tiempo se relacionan con el proceso
F) Realizar análisis residual y compruebe la no violación de los supuestosG)
0.80.40.0-0.4-0.8
99
90
50
10
1
Residuo
Porc
enta
je
4321
0.50
0.25
0.00
-0.25
-0.50
Valor ajustado
Res
iduo
0.60.40.20.0-0.2-0.4-0.6
8
6
4
2
0
Residuo
Frec
uenc
ia
30282624222018161412108642
0.50
0.25
0.00
-0.25
-0.50
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Time
R.
Explicación de los supuestos
Prueba de normalidad: De acuerdo a las gráficas los datos de la pendiente están cerca de la pendiente y también se hacen una gráfica de gauss, por lo tanto podemos decir que no se viola el supuesto de normalidad.
Prueba de linealidad y homocedasticidad: En la gráfica de vs. Ajustes, no se observa un patrón evidente en los residuos, y los puntos están en una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.
Prueba de independencia: En la gráfica de vs. Orden no se observa un modelo (patrón), por lo tanto no se viola el supuesto de independencia.
J) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson
R.D=1.78231
D>du=1.78231>1.49nohay evidenciade autocorrelación∴elmetodo deminimoscuadrados es apropiado
K) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%
b1± tn−2Sb10.012607±(2.048)(0.000827)
0.012607+ (2.048 ) (0.000827 )=0.0143006960.012607−(2.048)(0.000827)=0.010913304
Intervalo de confianza
(0.010913304,0 .014300696 )
Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (0.010913304,0 .014300696 )estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el tiempo y el proceso de factura
Esto indica que por cada aumento del tiempo se incrementara a por lo menos 0.0143 pero menos de 0.01430
EJERCICIO 12.80
a)
b) Calcule la ecuación de regresión
La ecuación de regresión es:
Índice de daño anillos O y= 18.0 – 0.240 temperatura
c) No pide predecir ningún promedio
d) Interpretar b0=18.0 y b1=0.240
b0 : Representa la intersección en y, y es el promedio del indice de daño de los
anillos O, cuando el grado de temperatura es O, el resultado será de 18.0.
b1 : Representa el cambio esperado en el índice de daño de los anillos O por
unidad de cambio en los grados de temperatura en 0.240.
e) Calcular r2 e interpretar
r2=38.6 %
Significa que el 38.6% de la variación en el índice de daño de los anillos O, se explica por la variabilidad de los grados de temperatura. Indica débil relación lineal positiva entre las dos variables.
f) Inferencias sobre la pendiente
Prueba t
H 0 :B1=0 No hay relación lineal
H 1:B1≠0 Hay relación lineal
Estadístico de prueba t c=−3.64
−3.64<−2.080 , por lo tanto rechazamos H 0, y concluíamos que existe una relación lineal entre las variables del índice de daño y la temperatura.
Prueba F
F= 13.22
13.22>4.32
Por lo tanto, se rechaza H 0 y se concluye que el índice de daño se relaciona con el grado de temperatura.
g) Análisis residual y comprobar no violación de los supuestos
De acuerdo a la gráfica los datos no están cerca de la pendiente por lo tanto se viola el supuesto de normalidad.
De acuerdo a la gráfica hay un patrón evidente en los residuos, por lo tanto se violan los supuestos
De acuerdo a la gráfica existe un patrón evidente en los residuos por lo tanto se viola el supuesto de independencia.
h) No se aplica, porque los datos no fueron recolectados en un periodo de tiempo.
i) Intervalo de confianza con un nivel de confianza del 95%
b1=−0.24
t 23−2=2.08
Sb1=0.06601
−0.24± (2.08 ) (00.06601 )
−0.24+0.1373=¿-0.1027
−0.24−0.1373=−0.3773
Intervalo (−0.37 ,−0.10)
EJERCICIO 12.81
a)
b) Calcule la ecuación de regresión
y=765+160x
c)
y=765+160x
y=765+160(4.50)
y=1485
d)
b0 Es la intersección en y, representa el promedio de las carreras ganadas cuando
la ejecución de lanzamientos es igual a cero
b1 Es el cambio esperado de las carreras ganadas por unidad de cambio en la
ejecución de lanzamientos
e) r2=90.1%
El 90.1% de variación de las carreas ganas se explica por la variabilidad de la ejecución de lanzamientos indica relación lineal positiva.
f)
Prueba t
α=0.05
H 0 :B1=0
H 1:B1≠0
Estadístico de prueba
t=8.56
gl=10−2=8
tc>t 8.56>2.31
Por lo tanto rechazamos H 0, y concluimos que existe una relación lineal entre las las carreras ganadas y la ejecución de lanzamientos
Prueba F
H 0 :B1=0
H 1:B1≠0
F= 73.22
fc>fu 73.22>5.32
Por lo tanto rechaza H 0 y se concluye que las carreras ganadas y los lanzamientos ejecutadas se relacionan
g) Análisis residual y no violación de los supuestos
9) Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.
10)Linealidad y Homoscedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni Homoscedasticidad.
11)De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.
12)El histograma no muestra una distribución normal.
h) Durbin Watson no se aplica porque los datos no se conectan en periodo de tiempo
i) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%
Sb1=159.99b1=160t n−2=2.05
b1± tn−2Sb1
160± (2.05 ) (159.99 )160+327.97=487.97160−327.97=−167.97
Intervalo de confianza (41.77 ,72.63)
Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 41.77 ,72.63, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre las carreras ganadas y la ejecución de lanzamientos
EJERCICIO 12.82 Durante la temporada de cosecha del otoño en Estados Unidos, se venden grandes cantidades de calabaza en los puestos de las granjas. Con frecuencia, en lugar de pesar las calabazas antes de su venta, el grajero solo coloca la calabaza en el recorte circular apropiado en el mostrador. Cuando se le pregunto por qué se hace esto, el granjero respondió: “puedo decir el peso de la calabaza a partir de su circunferencia”. Para determinar si esto es realmente cierto, se midió la circunferencia de una muestra de 23 calabazas y estas se pesaron con los siguientes resultados. PUMPKIN
Circunferencia(cm)
Peso(gramos
)
Circunferencia
(cm)
Peso(gramos)
50 1,200 57 2,00055 2,000 66 2,50054 1,500 82 4,60052 1,700 83 4,60037 500 70 3,10052 1,000 34 60053 1,500 51 1,50047 1,400 50 1,50051 1,500 49 1,60063 2,500 60 2,30033 500 59 2,10043 1,000
C) Construir diagrama de dispersión
90807060504030
5000
4000
3000
2000
1000
0
Circumference
Wei
ght
Gráfica de dispersión de Weight vs. Circumference
D) Calcular la ecuación de regresiónR. y=−2629+82.47 x i
E) Prediga la media del peso de una calabaza con una circunferencia de 60 cm.R. y=−2629+82.47 x i y=−2629+(82.47 ) (60 ) y=−2629+4,948.2 y=2,319.2
F) Interprete el significado de b0 y b1
R. b0 es la intersección en el peso de las calabazas, cuando la circunferencia es cero el peso será de -2629 gr. b1 Por cada cm de incremento en la circunferencia hay 82.47 gr de aumento
en el peso de la calabaza.
G) Calcular r2 e interprete el resultadoR. r2=93.72%Significa que el 93.72% de la variación del peso se explica por la variación de la circunferencia. Indica una relación lineal positiva entre las dos variables. El modelo de regresión predice peso de calabazas en un 93.72% y el otro 6.28% de variación se debe a otros factores.
H) Realizar inferencias sobre la pendiente prueba t y prueba f con nivel de significancia de ∝0.05R. Prueba T
t c=17.71
0.4
0.3
0.2
0.1
0.0
X
Den
sida
d
-2.080
0.025
2.080
0.025
0
Gráfica de distribuciónT, df=21
t c> t∝217.71>2.080
Rechazamos la H 0 y se acepta la alternativa, se concluye que existe una relación lineal entre la circunferencia y el peso de las calabazas.
Prueba F
H 0 :B1=0H 1:B1≠0
F=313.65
1.0
0.8
0.6
0.4
0.2
0.0
X
Den
sida
d
4.325
0.05
0
Gráfica de distribuciónF, df1=1, df2=21
t c=17.71
F=313.65
Como F>Fu 313.65>4.325 Cae en la región de rechazo de H 0 por tanto se concluye que el peso de la calabaza se relaciona con la circunferencia.
I) Realizar análisis residual y compruebe la no violación de los supuestosR.
5002500-250-500
99
90
50
10
1
Residuo
Porc
enta
je
40003000200010000
500
250
0
-250
-500
Valor ajustado
Res
iduo
4002000-200-400-600
10.0
7.5
5.0
2.5
0.0
Residuo
Frec
uenc
ia
222018161412108642
500
250
0
-250
-500
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Weight
13)Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.
14)Linealidad y Homocedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni homocedasticidad.
15)De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.
16)El histograma no muestra una distribución normal.
J) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%R. Sb1=4.66b1=82.47t n−2=2.080
b1± tn−2Sb182.47± (2.080 ) (4.66 )82.47±9.692882.47+9.6928=92.162882.47−9.6928=72.7772
(72.7772 ,92.1628)
Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 72.7772 y 92.1628, estos valores están por encima de
cero por lo tanto se concluye que existe una relación lineal significativa entre la circunferencia y el peso de las calabazas.Esto indica que el peso de las calabazas ronda por lo menos 72.77772 gramos pero no más de 92.1628 gramos.
EJERCICIO 12.83
¿Es útil la información demográfica para predecir las ventas de productos deportivos en las tiendas? Los datos del archivo SPORTING representan las ventas totales de una muestra aleatoria de 38 tiendas de una cadena a nivel nacional de productos deportivos. Todas las tiendas de la franquicia, y por lo tanto dentro de la muestra, tienen aproximadamente el mismo tamaño y venden la misma mercancía. Se denomina base de clientes al condado o, en algunos casos, los condados de los que la tienda extrae la mayor parte de sus clientes. Se dispone de información demográfica sobre la base de clientes para cada una de las 38 tiendas. Los datos son reales, pero el nombre de la franquicia no se usa a petición de la empresa. Las variables para este conjunto de datos son:Ventas (y): total de ventas mensuales en el último mes (en dólares). Edad: edad promedio de la base de clientes (en años).Hs: porcentaje de la base de clientes con diploma de bachillerato.Universidad: porcentaje de clientes con diploma universitario.Crecimiento: tasa de crecimiento anual de la población en los últimos 10 años.Ingreso (x): ingreso promedio familiar de la base de clientes (en dólares).
TABLA DE DATOS
VENTAS
EDADCRECIMIENT
OINGRESO
SHS
UNIVERSIDAD
169571333.157
40.8299 26748.5
73.5949
17.8350
340386232.666
70.6619 53063.8
88.4557
31.9439
271035335.655
30.9688 36090.1
73.5362
18.6198
52921533.072
80.0821 32058.1
79.1780
20.6284
66368735.758
50.4646 47843.4
84.1838
35.2032
254632433.813
22.1796 50181.0
93.4996
41.7057
278704630.979
71.8048 30710.1
78.0234
28.0250
61269630.784
3-0.0569 29141.7
70.2949
15.0882
89182232.316
4-0.1577 25980.2
70.6674
10.9829
112496832.531
20.3664 18730.9
63.7395
13.2458
90950131.440
02.2256 31109.2
76.9059
19.5500
2631167 33.161 1.5158 35614.1 82.945 20.8135
3 2
88297331.873
60.1413 23038.4
65.2127
16.9796
107857333.407
2-1.0400 34531.7
73.4944
32.9920
84432034.047
01.6836 30350.4
80.2201
22.3185
184911928.887
92.3596 38964.9
87.5973
24.5670
386000736.105
60.7840 49392.8
85.3041
30.8790
82657432.808
30.1164 25595.7
65.5884
17.4545
60468333.053
81.1498 29622.6
80.6176
18.6356
190361233.499
60.0606 31586.1
80.3790
38.3249
235680832.680
91.6338 39674.6
79.8526
23.7780
278857228.516
61.1256 28879.0
81.2371
16.9300
63487832.894
51.4884 24287.1
70.2244
19.1429
237162730.502
44.7937 46711.2
87.1046
30.8843
262783830.292
21.8922 33449.8
80.2057
26.5570
186811631.291
11.8667 31694.5
75.2914
28.3600
223679733.049
81.7896 25459.2
77.6162
19.2490
131887632.934
80.2707 47047.3
85.1753
35.4994
186809831.838
13.0129 26433.2
74.1792
18.6375
169521931.079
423.4630 33396.7
81.6991
41.1130
270019432.180
70.7041 26179.4
73.4140
17.8566
115605031.694
4-0.1569 33454.6
73.7161
26.5426
64385834.026
30.7084 42271.5
78.6493
29.8734
218868734.731
50.1353 46514.8
80.9503
24.5374
830352 30.561 0.3848 27030.8 66.805 14.1390
3 7
122690633.518
30.7417 42910.1
77.8905
20.8340
56690432.395
20.6693 40561.4
79.3622
19.0309
82651829.910
80.1111 22326.0
58.3610
10.6729
A) Construir diagrama de dispersión utilizando las ventas como la variable dependiente (y) y el ingreso familiar promedio como la variable independiente (x)R.
5500050000450004000035000300002500020000
4000000
3500000
3000000
2500000
2000000
1500000
1000000
500000
Income
Sale
s
Gráfica de dispersión de Sales vs. Income
B) Calcular la ecuación de regresiónR. y=299877+39.2x i
C) Interprete el significado de b0 y b1
R. b0 es la intersección en las ventas, cuando el ingreso es cero las ventas serán de 29998.77 dólares. b1 Por cada incremento en el ingreso hay 39.2 dólares de aumento en las
ventas de artículos deportivos.
D) Calcular r2 e interprete el resultadoR. r2=14.72%Significa que el 14.72% de la variación de las ventas de productos deportivos se explica por la variación de los ingresos. Indica débil relación lineal entre las dos variables. El modelo de regresión predice Ventas de productos deportivos en un 14.72% y el otro 85.28% de variación se debe a otros factores.
E) Realizar inferencias sobre la pendiente prueba t y prueba f con nivel de significancia de ∝0.05R. Prueba T t c=2.49
0.4
0.3
0.2
0.1
0.0
X
Den
sida
d
-2.028
0.025
2.028
0.025
0
Gráfica de distribuciónT, df=36
t c> t∝22.49>2.028
Rechazamos la H 0 y se acepta la alternativa, se concluye que existe una relación lineal entre los ingresos y las ventas.
Prueba F
H 0 :B1=0H 1:B1≠0
F=6.21
t c=2.49
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
X
Den
sida
d
0.0009958
0.025
5.471
0.025
0
Gráfica de distribuciónF, df1=1, df2=36
Como F>Fu 6.21>5.471 Cae en la región de rechazo de H 0 por tanto se concluye que los ingresos se relaciona con las ventas.
F) Realizar análisis residual y compruebe la no violación de los supuestosR.
200000010000000-1000000-2000000
99
90
50
10
1
Residuo
Porc
enta
je
2500000200000015000001000000
2000000
1000000
0
-1000000
Valor ajustado
Res
iduo
16000008000000-800000-1600000
8
6
4
2
0
Residuo
Frec
uenc
ia
35302520151051
2000000
1000000
0
-1000000
Orden de observación
Res
iduo
Gráfica de probabilidad normal vs. ajustes
Histograma vs. orden
Gráficas de residuos para Sales
F=6.21
17)Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.
18)Linealidad y Homocedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni homocedasticidad.
19)De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.
20)El histograma no muestra una distribución normal.
G) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%R. Sb1=15.7b1=39.2t n−2=2.028
b1± tn−2Sb139.2± (2.028 ) (15.7 )39.2±31.839639.2+31.8396=71.039639.2−31.8396=7.3604
(7.3604 ,71.0396)
Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 7.3604 y 71.0396, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre el ingreso familiar y las ventas mensuales.Esto indica que las ventas mensuales incrementan por lo menos $7.3604 dólares pero no más de $71.0396 dólares.