ejercicios estadistica

1.

TECNOLÓGICO NACIONAL DE MÉXICO

INSTITUTO TECNOLÓGICO DE ACAPULCO

“Ingeniería en Gestión Empresarial”

Ciencias Económico – Administrativas

“ESTADISTICA INFERENCIAL II”

UNIDAD 1

http://www.google.es/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=&url=http://www.cursosycarreras.com.mx/ciencias-economicas-y-empresariales-guerrero-CZ-4-8919&ei=NZE9Vf27IIaFsAXIioHADw&bvm=bv.91665533,d.b2w&psig=AFQjCNFUEDYcN8Zq1XRV5_j6a2CFtWUv7Q&ust=1430184629841964

http://www.google.com.mx/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0CAcQjRw&url=http://itsva.edu.mx/&ei=y-v8VKmtOoSRyAThmIHABg&bvm=bv.87611401,d.aWw&psig=AFQjCNHxm6Jvwe9W5hF-oLl04ch03EKGzw&ust=1425947916988668

http://www.google.es/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=&url=http://www.seodgetisonora.gob.mx/&ei=qpA9Vb6PI4q_sAX614GIDQ&bvm=bv.91665533,d.b2w&psig=AFQjCNFMbLBauEX4UR2IbCp93So4KQnUug&ust=1430184491065643

EJERCICIO 12.5

a)

b) Calcule la ecuación de regresión

y=26.7+0.572 x

c) y=26.7+0.572(400)

y=228.82

y=228.82x1000

y=228826

d)

b0 Es la intersección en y, representa el promedio de las ventas auditadas cuando

las reportadas es igual a cero

b1 Es el cambio esperado de las ventas auditadas por unidad de cambio en las

ventas reportadas en 0.572

e) r2=90.1%

El 90.1% de variación de las ventas auditadas se explica por la variabilidad de las ventas reportadas indica relación lineal positiva.

f) Prueba T

α=0.05

H 0 :B1=0

H 1:B1≠0

Estadístico de prueba

t=8.56

gl=10−2=8

tc>t 8.56>2.31

Por lo tanto rechazamos H 0, y concluimos que existe una relación lineal entre las variables órdenes y el peso del correo

Prueba F

H 0 :B1=0

H 1:B1≠0

F= 73.22

fc>fu 73.22>5.32

Por lo tanto rechaza H 0 y se concluye las ventas auditadas con las ventas reportadas.

g) Análisis residual y no violación de los supuestos

1) Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.

2) Linealidad y Homocedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni Homocedasticidad.

3) De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.

4) El histograma no muestra una distribución normal.

h) Durbin Watson no se aplica porque los datos no se conectan en periodo de tiempo

i) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%

Sb1=0.06683b1=0.572t n−2=2.31

b1± tn−2Sb1

0.572± (2.31 ) (0.06683 )0.572+0.1543=0.72630.572−0.1543=0.4177

Intervalo de confianza (41.77 ,72.63)

Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 41.77 ,72.63, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre las ventas auditadas y las reportadas

EJERCICIO 12.6 Análisis de regresión: Horas de trabajo vs. Pies cúbicos

La ecuación de regresión esHoras de trabajo = - 2.37 + 0.0501 Pies cúbicos

Predictor Coef Coef. De EE T PConstante -2.370 2.073 -1.14 0.261Pies cúbicos 0.050080 0.003031 16.52 0.000

S = 5.03143 R-cuad. = 88.9% R-cuad. (Ajustado) = 88.6%

Análisis de varianza

Fuente GL SC MC F PRegresión 1 6910.7 6910.7 272.99 0.000Error residual 34 860.7 25.3Total 35 7771.4

Estadístico de Durbin-Watson = 1.65068

a) Construir diagrama de dispersiónb) Calcular la ecuación de regresiónc) Predecir los promedios indicados en cada uno de los ejercicios.d) Interprete el significado de b0 y b1

e) Calcular r2 e interprete el resultadof) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de

significancia de ∝0.05g) Realizar análisis residual y compruebe la no violación de los supuestosh) En los problemas que sea necesario aplique la prueba del estadístico de

Durbin Watsoni) Estimar el intervalo de confianza para la pendiente con un nivel de

confianza de 95%

a)

b) y= -2.37 + 0.0501 x Horas de trabajo = - 2.37 + 0.0501 Pies cúbicos

c) y= -2.37 + 0.0501 (500) y= -2.37+25.05 =22.68Horas de trabajo.

d)

b0: Es la intersección en el eje y. Representa el promedio de las horas de trabajo cuando los pies cúbicos son iguales a cero.

b1: La pendiente nos indica el cambio en los pies cúbicos de cada unidad por cada unidad de cambio. Es decir, por cada unidad de cambio en los pies cúbicos hay un aumento de 0.0501unidades en horas de trabajo

e) r2=88.9% significa que el 88.9% de la variación de las horas trabajadas se explica por la variabilidad en los pies cúbicos de la mudanza. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice horas trabajadas en un 88.9% y el otro 11.1% se debe a otros factores.

f) Prueba t

H 0 :B1=0(Noexiste relaciónlineal)

H 1:B1≠0(Existe relación lineal)

Estadístico de prueba t= 16.52

Con un nivel de significancia de ∝=0.05, rechazamos H 0 :B1=0 , por lo tanto

aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre las horas de trabajo y los pies cúbicos de la mudanza. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.

Valor P

De acuerdo al valor p se rechaza H 0 y se acepta H 1 ,porque p < ∝; 0.000<0.05

16.52

Prueba f



Estadística de prueba f= 272.99

Se obtiene un valor 272.99 > 4.13. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre las horas de trabajo y los pies cúbicos de la mudanza.

g)

Prueba de normalidad, de acuerdo a la gráfica como los datos están cerca de la pendiente concluimos que no se viola el supuesto de normalidad.

Observando la gráfica no hay patrones de comportamiento por lo tanto se concluye que las varianzas son iguales, por tal razón no hay razón, para sospechar una violación al supuesto de independencia y homogeneidad.

h) Puesto que el valor DW=1.65068 se encuentra entre 1.5 y 2.5, podemos asumir que los residuos son independientes.

I) b1± tn−2 s b1

b1= 0.0501 n=36 gl=n−2=34 tn-2 = t 34=2.302 sb1=0.003031

0.0501 ± (2.302) (0.003031)

L.S=0.0501 + 0.00697=0.057

L.I=0.0501 - 0.00697=0.043

Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (0.043,0.057) y como estos valores están por encima del cero, se concluye que si existe una relación entre las horas de trabajo y los pies cúbicos de la mudanza.

Esto indica que por cada aumento de y2, se estima que las horas trabajadas se incrementan a por lo menos 0.043hrs. Pero no más de 0.057hrs.

EJERCICIO 12.7

a)


y=0.191+0.0297 x

c) y=0.191+0.0297 (50 )

y=0.191+1.485

y=1.676

d)

b0 Es la intersección en y, representa el promedio de las ordenes en miles cuando

el peso del correo en libras es igual a cero

b1 Es el cambio esperado de las órdenes en miles en el peso del correo en libras

en 0.0297

e) r2=97.2%

El 97.2% de variación de las ordenes en miles se explica por la variabilidad del peso del correo en libras indica relación lineal positiva

f) Prueba T

α=0.05

H 0 :B1=0

H 1:B1≠0


t=28.82

gl=25−2=23

tc>t 28.82>2.07

Por lo tanto rechazamos H 0, y concluimos que existe una relación lineal entre las variables órdenes y el peso del correo

Prueba F

H 0 :B1=0

H 1:B1≠0

F= 830.82

fc>fu 830.82>4.28

Se concluye que las órdenes se relacionan con el peso del correo.



6) Linealidad y Homoscedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni Homoscedasticidad.

7) De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.

8) El histograma no muestra una distribución normal.

h) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%

Sb1=0.001030b1=0.0297t n−2=2.07

b1± tn−2Sb1

0.0297± (2.07 ) (0.001030 )0.0297+0.00213=0.03180.0297−0.00213=0.0275


Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre0.0275 ,0.0318, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre las ordenes y el peso del correo

EJERCICIO 12.8Análisis de regresión: Valor estimado vs. Ingresos anuales

La ecuación de regresión esValor estimado = - 246 + 4.19 Ingresos anuales

Coef.Predictor Coef de EE T PConstante -246.26 26.04 -9.46 0.000Ingresos anuales 4.1897 0.1957 21.41 0.000



Fuente GL SC MC F PRegresión 1 523174 523174 458.28 0.000Error residual 28 31965 1142Total 29 555139






confianza de 95%

a)

b) y= -246 + 4.19xValor estimado= -246 + 4.19 Ingresos anuales

c) y= -246 + 4.19 (150000000) y= -246+628500000= 628499754

d)

b0: Es la intersección en el eje y. Representa el promedio del valor estimado cuando los ingresos anuales son igual a cero.

b1: La pendiente nos indica el cambio en el valor estimado de cada unidad por cada unidad de cambio en los ingresos anuales. Es decir, por cada unidad de cambio en los ingresos anules hay un aumento de 0.0297unidades en el valor estimado

e) r2=94.2% significa que el 94.2% de la variación del valor de las franquicias se explica por la variabilidad en los ingresos anuales. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice el valor de las franquicias en un 94.2% y el otro 5.8% se debe a otros factores.

f) Prueba t



Estadística de prueba t= 21.41


aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre el valor de las franquicias y los ingresos anules. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.

Valor P


Prueba f




Se obtiene un valor 458.28 > 4.196. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre el valor de la franquicia y los ingresos anuales.

g)




I) b1± tn−2 s b1

b1= 4.19 n=30gl=n−2=28 tn-2 = t 28=2.048 sb1=0.1957

4.19 ± (2.048) (0.1957)

L.S=4.19 + 0.4007=4.59 4.59x1000000=4590000

L.I=4.19 - 0.4007=3.79 3.79x1000000=3790000

Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (3.79, 4.59) y como estos valores están por encima del cero, se concluye que si existe una relación entre el valor de la franquicia y los ingresos anuales.

Esto indica que por cada aumento de y2, se estima que el valor de la franquicia se incrementan a por lo menos $3790000 dólares pero no más de $4590000 dólares.

EJERCICIO 12.9 Análisis de regresión: Renta mensual vs. Tamaño

La ecuación de regresión esRenta mensual = 177 + 1.07 Tamaño

Coef.Predictor Coef de EE T PConstante 177.1 161.0 1.10 0.283Tamaño 1.0651 0.1376 7.74 0.000



Fuente GL SC MC F PRegresión 1 2268777 2268777 59.91 0.000Error residual 23 870949 37867Total 24 3139726






confianza de 95%

a)

b) y= 177+ 1.07xRenta mensual= 177 + 1.07 Tamaño en pies

c) y= 177 + 1.07 (1000) y= 177+1070= $1247

y= 177 + 1.07 (1200) y= 177+1284= $1461A Jim y a Jennifer les conviene más firmar el contrato de 1200 pies cuadrados y renta mensual de $1425 ya que la renta es menos que la esperada

d)

b0: Es la intersección en el eje y. Representa el promedio la renta mensual cuando el tamaño de pies cuadrados es igual a cero.

b1: La pendiente nos indica el cambio en la renta mensual de cada unidad por cada unidad de cambio en el tamaño. Es decir, por cada unidad de cambio en el tamaño hay un aumento de 1.07 unidades en la renta mensual

e) r2=72.3% significa que el 72.3% de la variación de la renta mensual se explica por la variabilidad en el tamaño. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice la renta mensual en un 72.3% y el otro 27.7% se debe a otros factores.f) Prueba t





aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre la renta mensual y el tamaño. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.

Valor P


Prueba f




Se obtiene un valor 59.91 > 4.279. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre la renta mensual y el tamaño.

g)




I) b1± tn−2 s b1

b1= 1.07 n=25gl=n−2=23 tn-2 = t 23=2.068 sb1=0.1376

1.07 ± (2.068) (0.1376)

L.S=1.07 + 0.284=1.354

L.I=1.07 - 0.284=0.786

Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (0.786, 1.354) y como estos valores están por encima del cero, se concluye que si existe una relación entre la renta mensual y el tamaño.

Esto indica que por cada aumento de y2, se estima que la renta mensual se incrementan a por lo menos $0.786 pero no más de $1.354.

EJERCICIO 12.74 Análisis de regresión: Tiempo de entrega vs. Numero de cajas

La ecuación de regresión esTiempo de entrega = 24.8 + 0.140 Numero de cajas

Predictor Coef Coef. De EE T PConstante 24.835 1.054 23.56 0.000Numero de cajas 0.140026 0.005627 24.88 0.000









confianza de 95%

a)

b) y= 24.8+ 0.140xTiempo de entrega= 24.8 + 0.140 Numero de cajas

c) y= 24.8 + 0.140 (150) y= 24.8+21= 45.8min

d)

b0: Es la intersección en el eje y. Representa el promedio del tiempo de entrega cuando el número de cajas es igual a cero.

b1: La pendiente nos indica el cambio en el tiempo de entrega de cada unidad por cada unidad de cambio en el tamaño. Es decir, por cada unidad de cambio en el número de cajas hay un aumento de 0.140 unidades en el tiempo de entrega.

e) r2=97.2% significa que el 97.2% de la variación del tiempo de entrega se explica por la variabilidad en el número de cajas. Indica una relación lineal positiva entre las dos variables, el modelo de regresión predice el tiempo de entrega en un 97.2% y el otro 2.8% se debe a otros factores.

f) Prueba t




Con un nivel de significancia de ∝=0.05, se rechaza H 0 :B1=0 , por lo tanto

aceptamos H 1:B1≠0, por lo tanto concluimos que existe relación lineal entre el tiempo de entrega y el número de cajas. Hay evidencias necesarias para determinar que la ecuación de la relación lineal de este modelo es aceptable.

Valor P


Prueba f




Se obtiene un valor 619.20 > 4.41. Se rechaza H 0 y se acepta H 1. Se concluye que al 95% de significación hay suficiente evidencia estadística para afirmar que hay relación entre el tiempo de entrega y el número de cajas.

g)



h) Puesto que el valor DW=1.79361 se encuentra entre 1.5 y 2.5, podemos asumir que los residuos son independientes. No hay correlación.

i) b1± tn−2 s b1

b1= 0.140 n=20gl=n−2=18 tn-2 = t 18=2.10 sb1=0.005627

0.140 ± (2.10) (0.005627)

L.S=0.140 + 0.0118= 0.1518

L.I=0.140 - 0.0118= 0.1282

Se estima con un nivel de confianza de 95% que la pendiente de la población se encuentra entre (0.1282, 0.1518) y como estos valores están por encima del cero,

se concluye que si existe una relación entre el número de cajas y el tiempo de entrega.

Esto indica que por cada aumento de y2, se estima que el tiempo de entrega se incrementan a por lo menos 0.1218min pero no más de 0.1518min.

EJERCICIO 12.75Una casa de correduría desea predecir el número de negocios realizados por día utilizando el número de llamadas telefónicas entrantes como una variable predictiva. Los datos fueron recolectados a lo largo de un periodo de 35 días. TRADES

DIAS LLAMADAS NEGOCIOS1 2591 4172 2146 3213 2185 3624 2245 3645 2600 4426 2510 3867 2394 3708 2486 3769 2483 46310 2297 38911 2106 30212 2035 26613 1936 339

14 1951 36915 2292 40316 2094 31917 1897 30618 2237 39719 2328 36520 2078 33021 2134 31222 2192 34023 1965 33924 2147 36425 2015 29526 2046 29227 2073 37928 2032 29429 2108 32930 1923 27431 2069 32632 2061 30633 2010 35234 1913 29035 1904 283

A) Construir un diagrama de dispersión

26002500240023002200210020001900

450

400

350

300

250

Calls

Trad

esGráfica de dispersión de Trades vs. Calls

B) Calcular la ecuación de regresión

R. TRADES=−63.0+0.1890CALLS

O

y=−63.0+0.1890 x

C) Predecir los promedios indicadas en cada uno de los ejercicios. (prediga el número de negocios realizados para un día en el que el número de llamadas telefónicas entrantes fue de 2000.

R.

y=−63.0+0.1890 (2000 )=−63.0+378=¿

y=315 numerodenegocio por llamadas telefonicas

D) Interprete el significado de b0 y b1

R.

b0= Representa la intersección el número de negocios (y), cuando el número de

llamadas (x) es cero, será de -63.0.

b1= La pendiente representa el cambio esperado en el número de llamadas (y) por

unidad de cambio en el número de llamadas (x), por cada cambio en el número de negocios, el número de llamadas incrementa en un 0.1890.

E) Calcular r2 de interprete el resultado

R. r2= 63.01%

Significa que el 63.01 % de la variación del número de negocios se explica por la variabilidad del número de llamadas, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice el número de negocios en un 63.01 % y el otro 36.99 se debe a otros factores.

F) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05

R.

Prueba t

H o :B1=0

H 1:B1≠0

t c=7.50

t c>tα2

=7.50>2.0345

Se rechaza la hipótesis nula (H o) y se concluye que existe una relación lineal entre el número de negocios y las llamadas.

Prueba F

f=56.21

t c=7.50

1.2

1.0

0.8

0.6

0.4

0.2

0.0

X

Den

sida

d

4.139

0.05

0

Gráfica de distribuciónF, df1=1, df2=33

f >f μ=56.21>4.139

Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o) y se concluye que el número de negocios se relacionan con el número de llamadas.

G) Realizar análisis residual y compruebe la no violación de los supuestos

R.

f=56.21

80400-40-80

99

90

50

10

1

Residuo

Porc

enta

je

420390360330300

50

25

0

-25

-50

Valor ajustado

Res

iduo

60300-30-60

8

6

4

2

0

Residuo

Frec

uenc

ia

35302520151051

50

25

0

-25

-50

Orden de observación

Res

iduo

Gráfica de probabilidad normal vs. ajustes

Histograma vs. orden

Gráficas de residuos para Trades

Explicación de los supuestos

De acuerdo a la gráfica de probabilidad normal, los datos están cerca de la pendiente, por lo tanto se concluye que no se viola el supuesto de normalidad, aunque el histograma no este distribuido de manera normal.En la gráfica vs. Ajuste, no se observa ningún patrón aparente en los residuos, los puntos están en una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.En la gráfica de Vs. Orden no se observa un patrón, por lo tanto no se viola el supuesto de independencia, pero se analizara más adecuadamente una prueba del estadístico de Durbin Watson.

H) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson

R. D = 1.96073

D>du=1.96073>1.52nohay evidenciade autocorrelación∴elmetodo deminimoscuadrados es apropiado

I) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%

R.

b1± tn−2Sb1

0.1890±(2.0345)(0.0252)

0.1890+(2.0345)(0.0252)=0.2402

0.1890−(2.0345)(0.0252)=0.1377

Intervalo de confianza

(0.2402 ,0.1377 )

Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (0.22402, 0.1377) estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el número de negocios y el número de las llamadas.

Esto indica que por cada aumento de los pies cúbicos se estima que las horas de trabajo se incrementen a por lo menos 0.1377 pero no más de 0.2402.

EJERCICIO 12.76Usted desea desarrollar un modelo para predecir el precio de venta de casas con base en el valor del avaluó. Se selecciona una muestra de 30 casas unifamiliares recientemente vendidas en una pequeña ciudad, para estudiar la relación entre el precio de venta (en miles de dólares) y el precio del avaluó (en miles de dólares). Las casa en la ciudad fueron reevaluadas a su valor total un año antes del estudio. Los resultados se encuentran en el ejercicio HOUSE1.

Price Value New Time94.10 78.17 1 10101.90 80.24 1 1088.65 74.03 0 11115.50 86.31 0 287.50 75.22 0 572.00 65.54 0 491.50 72.43 0 17113.90 85.61 0 1369.34 60.80 0 696.90 81.88 1 596.00 79.11 0 761.90 59.93 0 493.00 75.27 0 11109.50 85.88 1 1093.75 76.64 0 17106.70 84.36 0 1281.50 72.94 0 594.50 76.50 1 1469.00 66.28 0 196.90 79.74 1 386.50 72.78 0 1497.90 77.90 1 1283.00 74.31 0 1197.30 79.85 1 12100.80 84.78 1 297.90 81.61 1 690.50 74.92 0 1297.00 79.98 1 492.00 77.96 0 995.90 79.07 1 12

A) Construir un diagrama de dispersión

Análisis de regresión: Precio vs. Valor del avaluo

La ecuación de regresión esPrecio = - 44.2 + 1.78 Valor del avaluo

Predictor Coef Coef. de EE T PConstante -44.172 7.346 -6.01 0.000Valor del avaluo 1.78171 0.09546 18.66 0.000

S = 3.47493 R-cuad. = 92.6% R-cuad.(ajustado) = 92.3%




B)

12011010090807060

90

85

80

75

70

65

60

Price

Val

ue

Gráfica de dispersión de Value vs. Price

C) Calcular la ecuación de regresión

R. y=28.65+0.5195 x

O

avaluo=28.65+0.5195 precio

D) Predecir los promedios indicadas en cada uno de los ejercicios. (prediga el valor de avalúo para una casa cuyo valor es de $70,000.

y=28.65+0.5195 x=28.65+0.5195 (70000 )=$36,393.65

E) Interprete el significado de b0 y b1

R.

b0= Representa la intersección en el valor del avalúo (y), cuando el precio de la

casa (x) es cero, será de 28.65.

b1= La pendiente representa el cambio esperado en el valor del avalúo (y), por

unidad de cambio en el precio de la casa (x), por cada cambio en el valor del avalúo, el precio de la casa incrementara un 0.5195.

F) Calcular r2 de interprete el resultado

R.

r2 = 92.56%

Significa que el 92.56% de la variación del valor del avalúo se explica por la variabilidad del precio de la casa, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice el valor del avalúo en 92.56% y el otro en 7.44 % se debe a otros factores.

G) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05

R.

Prueba t

H o :B1=0

H 1:B1≠0

gl=28

Estadisticode pruebat c=18.66

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

-2.048

0.025

2.048

0.025

0

Gráfica de distribuciónT, df=28

t c>tα2

=18.66>2.048

Se rechaza la hipótesis nula y se concluye que existe una relación lineal entre el valor del avalúo y el precio de la casa.

Prueba F

H o :B1=0

H 1:B1≠0

gl=28

f=348.37

1.2

1.0

0.8

0.6

0.4

0.2

0.0

X

Den

sida

d

4.196

0.05

0


f >f μ=348.37>4.196

Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye que el valor del avalúo se relacionan con el precio de las casa.

H) Realizar análisis residual y compruebe la no violación de los supuestos

R.

f=348.37

5.02.50.0-2.5-5.0

99

90

50

10

1

Residuo

Porc

enta

je

90807060

4

2

0

-2

-4

Valor ajustado

Res

iduo

420-2-4

8

6

4

2

0

Residuo

Frec

uenc

ia

30282624222018161412108642

4

2

0

-2

-4


Res

iduo



Gráficas de residuos para Value


De acuerdo a la gráfica de probabilidad normal, los datos están cerca de la pendiente, y se observa que el histograma está distribuido de manera normal, si existieran más datos se podría apreciar perfectamente, por lo tanto se concluye que no se viola el supuesto de normalidad. En la gráfica de vs. Ajustes, no se observa un patrón evidente en los residuos, y los puntos están distribuido a una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.En la gráfica de vs. Orden no se observa un modelo (patrón), por lo tanto no se viola el supuesto de independencia

I) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson

R. No es necesario realizar la prueba de Durbin Watson, porque el cálculo no requiere o especifica periodos de tiempos anteriores al interesado.

J) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%R.

b1± tn−2Sb1

0.5195±(2.048)(0.0278)

0.5195+ (2.048 ) (0.0278 )=0.5764

0.5195−(2.048 ) (0.0278 )=0.4625


(0.4625 ,0.5764 )=(462.5 ,576.4)

Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (462.5 ,576.4), estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el valor del avalúo y el precio de la casas.

Esto indica que por cada aumento del valor del avalúo se estima que el precio de la casa se incremente a por lo menos 462.5 pero no más de 576.4.

EJERCICIO 12.77 Usted desea desarrollar un modelo de predicción del valor del avalúo de las casa con base en un área de calefacción. Se selecciona una muestra de 15 casas unifamiliares en una ciudad. El valor de avalúo (en miles de dólares) y el área de calefacción delas casa (en miles de pies cuadrados) se registran con los siguientes resultados: HOUSE2.

Value HeatArea Age84.4 2.00 3.4277.4 1.71 11.5075.7 1.45 8.3385.9 1.76 0.0079.1 1.93 7.4270.4 1.20 32.0075.8 1.55 16.0085.9 1.93 2.0078.5 1.59 1.7579.2 1.50 2.7586.7 1.90 0.0079.3 1.39 0.0074.5 1.54 12.5883.8 1.89 2.7576.8 1.59 7.17

A) Construir un diagrama de dispersión R.

2.01.91.81.71.61.51.41.31.21.1

88

86

84

82

80

78

76

74

72

70

HeatArea

Val

ueGráfica de dispersión de Value vs. HeatArea

B) Calcular la ecuación de regresiónR.

avaluo=51.92+16.63airesacondicionadoy=51.92+16.63 x

C) Predecir los promedios indicadas en cada uno de los ejercicios. (prediga el valor de avaluó de las casas con un área de calefacción de 1750 pies cuadrados.R.

y=51.92+16.63 x=51.92+16.63 (1750 )=29,154.42


R.

b0= Representa la intersección en el valor del avalúo de las casas (y),

cuando el área de calefacción (x) es cero, será de 51.92 (miles)

b1= La pendiente representa el cambio esperado en el valor del avalúo de

las casas (Y) por unidad de cambio en el área de calefacción (X), por cada cambio en el valor del avalúo de las casas, el área de calefacción incrementara en un 16.63.

E) Calcular r2 de interprete el resultado

R.

r2=65.93%

Significa que el 65.93% de la variación del valor del avalúo de las casas se explica por la variabilidad del área de calefacción, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice el valor el avalúo en un 65.93% y el otro 34.07% se debe a otros factores.

F) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05

R.

Prueba t

H o :B1=0

H 1:B1≠0

gl=13

Estadisticode pruebat c=5.02

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

-2.160

0.025

2.160

0.025

0


t c>tα2

=5.02>2.160

Se rechaza la hipótesis nula (H o)y se concluye que existe una relación lineal entre el valor del avalúo de las casas y el área de calefacción.

Prueba F

H o :B1=0

H 1:B1≠0

gl=13

f=25.16

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

4.667

0.05

0


f >f μ=25.16>4.667

Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye que el valor del avalúo de las casas y el área de calefacción.


R.

f=25.16

5.02.50.0-2.5-5.0

99

90

50

10

1

Residuo

Porc

enta

je

85807570

5.0

2.5

0.0

-2.5

-5.0

Valor ajustado

Res

iduo

420-2-4

3

2

1

0

Residuo

Frec

uenc

ia

151413121110987654321

5.0

2.5

0.0

-2.5

-5.0


Res

iduo



Gráficas de residuos para Value


Prueba de normalidad: De acuerdo a la gráfica de probabilidad normal, los datos no están completamente cerca de la pendiente, por lo tanto se concluye que se viola el supuesto de normalidad, y el histograma no este distribuido de manera normal. Se necesitan realizar más pruebas.

Prueba de linealidad y homocedasticidad: En la gráfica de vs. Ajustes, no se observa un patrón evidente en los residuos, y los puntos están en una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.

Prueba de independencia: En la gráfica de vs. Orden no se observa un modelo (patrón), por lo tanto no se viola el supuesto de independencia.


R. No es necesario realizar la prueba de Durbin Watson, porque el cálculo no requiere o especifica periodos de tiempos anteriores al interesado.


R.

b1± tn−2Sb1

16.63±(2.160)(3.32)

16.63+(2.160 ) (3.32 )=23.80

16.63−(2.160 ) (3.32 )=9.45


(23.80,9 .45 )=(23,800,9450)

Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (23,800, 9450), estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el valor del avalúo de las casas y el área de la calefacción.

Esto indica que por cada aumento del valor del avalúo de la casa se estima que el área de calefacción se incremente a por lo menos 9450 pero no más de 23800.

EJERCICO 12.78 Al director de postgrado en una facultad de administración le gustaría predecir el índice de puntos de calificación (GPI) de los estudiantes en un programa de MBA con base en la puntuación de la prueba de aptitudes gerenciales del graduado (GMAT). Se seleccionó una muestra de 20 estudiantes que habían completado dos años de ese programa. Los resultados son los siguientes:

Observación GMAT GPI1 688 3.722 647 3.443 652 3.214 608 3.295 680 3.916 617 3.287 557 3.028 599 3.139 616 3.45

10 594 3.3311 567 3.0712 542 2.8613 551 2.9114 573 2.7915 536 3.0016 639 3.5517 619 3.4718 694 3.6019 718 3.8820 759 3.76

A) Construir diagrama de dispersión

B) Calcular la ecuación de regresión

R. y=76.7+163.8GMAT

C) Predecir el GPI para un estudiante con una puntuación GMAT 600

R. y=76.8+(163.8) (600 )

y=76.8+98,280

y=98,356.8


R.b0 Representa la intersección del GPI (Y) cuando (X) el GMAT tiene un valor igual a cero. No es válido, si no hay medida no hay validez.

R. b1 La pendiente representa el cambio esperado de (Y) por el GMAT (X), por cada proceso el tiempo incrementaran en un 163.8

E) Calcular r2 e interprete el resultado

R. r2=78.66%

Significa que el 78.66% de la variación de los puntos de calificación indica una relación lineal entre las dos variables. El modelo de regresión predice que las

4.03.83.63.43.23.02.8

750

700

650

600

550

500

GMAT

GPI

Gráfica de dispersión de GPI vs. GMAT

calificaciones en un 78.66% y el otro 21.34% de variación se deben a otros factores

F) Realizar inferencias sobre la pendiente prueba t y prueba f con nivel de significancia de ∝0.05

Prueba t

H o :B1=0

H 1:B1≠0

gl=18

t c=8.43

t c>tα2

=8.43>2.101

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

-2.101

0.025

2.101

0.025

0


Se rechaza la hipótesis nula (H o)y se concluye que existe una relación lineal entre las órdenes de correo y las libras del peso del correo

Prueba F

H o :B1=0

H 1:B1≠0

gl=18

f=71.03

1.0

0.8

0.6

0.4

0.2

0.0

X

Den

sida

d

0.001010

0.025

5.978

0.025

0


f >f μ=71.03>5.978

Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye que GPI se relacionan con GMAT.


R.

50250-25-50

99

90

50

10

1

Residuo

Porc

enta

je

3002001000

50

25

0

-25

-50

Valor ajustado

Res

iduo

40200-20-40

10.0

7.5

5.0

2.5

0.0

Residuo

Frec

uenc

ia

30282624222018161412108642

50

25

0

-25

-50


Res

iduo



Gráficas de residuos para Process

Prueba de normalidad: De acuerdo a las gráficas los datos de la pendiente están cerca de la pendiente y también se hacen una gráfica de gauss, por lo tanto podemos decir que no se viola el supuesto de normalidad.

Prueba de linealidad y homocedasticidad: No existe patrón evidente en los residuos, por lo tanto decimos que no se viola el supuesto de linealidad y homocedasticidad.

Prueba de independencia: No se halla un patrón (modelo), entonces se conoce que no se viola el supuesto de independencia.


R. D.W = 1.64219



R.

b1± tn−2Sb1

163.8±(2.101)(19.4)

163.8+(2.101)(19.4)=203.7594

163.8−(2.101 ) (19.4 )=122.2406


(122.2406 ,203.7594 )

Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (122.2406 ,203.7594) estos valores están por

encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre las GPI y el GMAT.

Esto indica que por cada aumento GPI se incrementen a por lo menos 122.2406 pero no más de 203.7594

EJERCICIO 12.79El gerente del departamento de compras en una gran organización bancaria quisiera desarrollar un modelo para predecir el tiempo que toma procesar facturas. Se recolectaron datos provenientes de una muestra de 30 días y se registró el número de facturas procesadas y el tiempo en que se completaron, en horas.

Process Time149 2.160 1.8

188 2.319 0.3

201 2.758 1.077 1.7

222 3.1181 2.830 1.0

110 1.583 1.260 0.825 0.4

173 2.0169 2.5190 2.9

233 3.4289 4.145 1.2

193 2.570 1.8

241 3.8103 1.5163 2.8120 2.5201 3.3135 2.080 1.729 0.5

A) Construir diagrama de dispersiónR.

43210

300

250

200

150

100

50

0

Time

Proc

ess

Gráfica de dispersión de Process vs. Time

B) Ecuación de regresiónR. y=0.402+0.012607 Process

C) Predecir la cantidad de tiempo que tomaría procesar 150 facturas.

y=0.402+0.012607(150)y=0.402+1.89105y=2.292


R .b0 Representa la intersección del tiempo (Y) cuando (X) el proceso tiene un valor igual a cero. No es válido, si no hay medida no hay validez.

b1 La pendiente representa el cambio esperado (Y) por el tiempo (X), por cada proceso el tiempo incrementaran en un 0.012607.

D) Calcular r2 e interprete el resultado

R.

r2=88.86% Significa que el 88.86% de la variación de los procesos se explica por

la variabilidad del tiempo, indicando fuerte relación lineal positiva entre las dos variables. El modelo de regresión predice las horas de trabajo en un 88.86% y el otro 11.14% se debe a otros factores.

E) Realizar inferencias sobre la pendiente prueba t y prueba F con nivel de significancia de ∝0.05

H o :B1=0H 1:B1≠0

gl=28Estadisticode pruebat c=15.24

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

-2.048

0.025

2.048

0.025

0


t c>tα2

=15.24>2.048

Se rechaza la hipótesis nula (H o)y se concluye que existe una relación lineal entre el tiempo y el proceso

Prueba F

H o :B1=0

H 1:B1≠0

gl=28

f=232.22

1.2

1.0

0.8

0.6

0.4

0.2

0.0

X

Den

sida

d

4.196

0.05

0


f >f μ=73.22>5.318

Cae en la región de rechazo por lo tanto se rechaza la hipótesis nula (H o)y se concluye el tiempo se relacionan con el proceso

F) Realizar análisis residual y compruebe la no violación de los supuestosG)

0.80.40.0-0.4-0.8

99

90

50

10

1

Residuo

Porc

enta

je

4321

0.50

0.25

0.00

-0.25

-0.50

Valor ajustado

Res

iduo

0.60.40.20.0-0.2-0.4-0.6

8

6

4

2

0

Residuo

Frec

uenc

ia

30282624222018161412108642

0.50

0.25

0.00

-0.25

-0.50


Res

iduo



Gráficas de residuos para Time

R.


Prueba de normalidad: De acuerdo a las gráficas los datos de la pendiente están cerca de la pendiente y también se hacen una gráfica de gauss, por lo tanto podemos decir que no se viola el supuesto de normalidad.

Prueba de linealidad y homocedasticidad: En la gráfica de vs. Ajustes, no se observa un patrón evidente en los residuos, y los puntos están en una distancia igual a la recta, por lo tanto se concluye que no se violan los supuestos de linealidad y homocedasticidad.

Prueba de independencia: En la gráfica de vs. Orden no se observa un modelo (patrón), por lo tanto no se viola el supuesto de independencia.

J) En los problemas que sea necesario aplique la prueba del estadístico de Durbin Watson

R.D=1.78231


K) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%

b1± tn−2Sb10.012607±(2.048)(0.000827)

0.012607+ (2.048 ) (0.000827 )=0.0143006960.012607−(2.048)(0.000827)=0.010913304


(0.010913304,0 .014300696 )

Por lo tanto se estima que con un nivel de confianza del 95% que la pendiente de la población se encuentra entre (0.010913304,0 .014300696 )estos valores están por encima de cero por lo tanto se concluye que existe que existe una relación lineal significativa entre el tiempo y el proceso de factura

Esto indica que por cada aumento del tiempo se incrementara a por lo menos 0.0143 pero menos de 0.01430

EJERCICIO 12.80

a)


La ecuación de regresión es:

Índice de daño anillos O y= 18.0 – 0.240 temperatura

c) No pide predecir ningún promedio

d) Interpretar b0=18.0 y b1=0.240

b0 : Representa la intersección en y, y es el promedio del indice de daño de los

anillos O, cuando el grado de temperatura es O, el resultado será de 18.0.

b1 : Representa el cambio esperado en el índice de daño de los anillos O por

unidad de cambio en los grados de temperatura en 0.240.

e) Calcular r2 e interpretar

r2=38.6 %

Significa que el 38.6% de la variación en el índice de daño de los anillos O, se explica por la variabilidad de los grados de temperatura. Indica débil relación lineal positiva entre las dos variables.

f) Inferencias sobre la pendiente

Prueba t

H 0 :B1=0 No hay relación lineal

H 1:B1≠0 Hay relación lineal

Estadístico de prueba t c=−3.64

−3.64<−2.080 , por lo tanto rechazamos H 0, y concluíamos que existe una relación lineal entre las variables del índice de daño y la temperatura.

Prueba F

F= 13.22

13.22>4.32

Por lo tanto, se rechaza H 0 y se concluye que el índice de daño se relaciona con el grado de temperatura.

g) Análisis residual y comprobar no violación de los supuestos

De acuerdo a la gráfica los datos no están cerca de la pendiente por lo tanto se viola el supuesto de normalidad.

De acuerdo a la gráfica hay un patrón evidente en los residuos, por lo tanto se violan los supuestos

De acuerdo a la gráfica existe un patrón evidente en los residuos por lo tanto se viola el supuesto de independencia.

h) No se aplica, porque los datos no fueron recolectados en un periodo de tiempo.

i) Intervalo de confianza con un nivel de confianza del 95%

b1=−0.24

t 23−2=2.08

Sb1=0.06601

−0.24± (2.08 ) (00.06601 )

−0.24+0.1373=¿-0.1027

−0.24−0.1373=−0.3773

Intervalo (−0.37 ,−0.10)

EJERCICIO 12.81

a)


y=765+160x

c)

y=765+160x

y=765+160(4.50)

y=1485

d)

b0 Es la intersección en y, representa el promedio de las carreras ganadas cuando

la ejecución de lanzamientos es igual a cero

b1 Es el cambio esperado de las carreras ganadas por unidad de cambio en la

ejecución de lanzamientos

e) r2=90.1%

El 90.1% de variación de las carreas ganas se explica por la variabilidad de la ejecución de lanzamientos indica relación lineal positiva.

f)

Prueba t

α=0.05

H 0 :B1=0

H 1:B1≠0


t=8.56

gl=10−2=8

tc>t 8.56>2.31

Por lo tanto rechazamos H 0, y concluimos que existe una relación lineal entre las las carreras ganadas y la ejecución de lanzamientos

Prueba F

H 0 :B1=0

H 1:B1≠0

F= 73.22

fc>fu 73.22>5.32

Por lo tanto rechaza H 0 y se concluye que las carreras ganadas y los lanzamientos ejecutadas se relacionan



10)Linealidad y Homoscedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni Homoscedasticidad.

11)De acuerdo a la gráfica no se viola el supuesto de independencia porque no hay un patrón.

12)El histograma no muestra una distribución normal.

h) Durbin Watson no se aplica porque los datos no se conectan en periodo de tiempo

i) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%

Sb1=159.99b1=160t n−2=2.05

b1± tn−2Sb1

160± (2.05 ) (159.99 )160+327.97=487.97160−327.97=−167.97


Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 41.77 ,72.63, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre las carreras ganadas y la ejecución de lanzamientos

EJERCICIO 12.82 Durante la temporada de cosecha del otoño en Estados Unidos, se venden grandes cantidades de calabaza en los puestos de las granjas. Con frecuencia, en lugar de pesar las calabazas antes de su venta, el grajero solo coloca la calabaza en el recorte circular apropiado en el mostrador. Cuando se le pregunto por qué se hace esto, el granjero respondió: “puedo decir el peso de la calabaza a partir de su circunferencia”. Para determinar si esto es realmente cierto, se midió la circunferencia de una muestra de 23 calabazas y estas se pesaron con los siguientes resultados. PUMPKIN

Circunferencia(cm)

Peso(gramos

)

Circunferencia

(cm)

Peso(gramos)

50 1,200 57 2,00055 2,000 66 2,50054 1,500 82 4,60052 1,700 83 4,60037 500 70 3,10052 1,000 34 60053 1,500 51 1,50047 1,400 50 1,50051 1,500 49 1,60063 2,500 60 2,30033 500 59 2,10043 1,000

C) Construir diagrama de dispersión

90807060504030

5000

4000

3000

2000

1000

0

Circumference

Wei

ght

Gráfica de dispersión de Weight vs. Circumference

D) Calcular la ecuación de regresiónR. y=−2629+82.47 x i

E) Prediga la media del peso de una calabaza con una circunferencia de 60 cm.R. y=−2629+82.47 x i y=−2629+(82.47 ) (60 ) y=−2629+4,948.2 y=2,319.2

F) Interprete el significado de b0 y b1

R. b0 es la intersección en el peso de las calabazas, cuando la circunferencia es cero el peso será de -2629 gr. b1 Por cada cm de incremento en la circunferencia hay 82.47 gr de aumento

en el peso de la calabaza.

G) Calcular r2 e interprete el resultadoR. r2=93.72%Significa que el 93.72% de la variación del peso se explica por la variación de la circunferencia. Indica una relación lineal positiva entre las dos variables. El modelo de regresión predice peso de calabazas en un 93.72% y el otro 6.28% de variación se debe a otros factores.

H) Realizar inferencias sobre la pendiente prueba t y prueba f con nivel de significancia de ∝0.05R. Prueba T

t c=17.71

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

-2.080

0.025

2.080

0.025

0


t c> t∝217.71>2.080

Rechazamos la H 0 y se acepta la alternativa, se concluye que existe una relación lineal entre la circunferencia y el peso de las calabazas.

Prueba F

H 0 :B1=0H 1:B1≠0

F=313.65

1.0

0.8

0.6

0.4

0.2

0.0

X

Den

sida

d

4.325

0.05

0


t c=17.71

F=313.65

Como F>Fu 313.65>4.325 Cae en la región de rechazo de H 0 por tanto se concluye que el peso de la calabaza se relaciona con la circunferencia.

I) Realizar análisis residual y compruebe la no violación de los supuestosR.

5002500-250-500

99

90

50

10

1

Residuo

Porc

enta

je

40003000200010000

500

250

0

-250

-500

Valor ajustado

Res

iduo

4002000-200-400-600

10.0

7.5

5.0

2.5

0.0

Residuo

Frec

uenc

ia

222018161412108642

500

250

0

-250

-500


Res

iduo



Gráficas de residuos para Weight

13)Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.

14)Linealidad y Homocedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni homocedasticidad.



J) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%R. Sb1=4.66b1=82.47t n−2=2.080

b1± tn−2Sb182.47± (2.080 ) (4.66 )82.47±9.692882.47+9.6928=92.162882.47−9.6928=72.7772

(72.7772 ,92.1628)

Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 72.7772 y 92.1628, estos valores están por encima de

cero por lo tanto se concluye que existe una relación lineal significativa entre la circunferencia y el peso de las calabazas.Esto indica que el peso de las calabazas ronda por lo menos 72.77772 gramos pero no más de 92.1628 gramos.

EJERCICIO 12.83

¿Es útil la información demográfica para predecir las ventas de productos deportivos en las tiendas? Los datos del archivo SPORTING representan las ventas totales de una muestra aleatoria de 38 tiendas de una cadena a nivel nacional de productos deportivos. Todas las tiendas de la franquicia, y por lo tanto dentro de la muestra, tienen aproximadamente el mismo tamaño y venden la misma mercancía. Se denomina base de clientes al condado o, en algunos casos, los condados de los que la tienda extrae la mayor parte de sus clientes. Se dispone de información demográfica sobre la base de clientes para cada una de las 38 tiendas. Los datos son reales, pero el nombre de la franquicia no se usa a petición de la empresa. Las variables para este conjunto de datos son:Ventas (y): total de ventas mensuales en el último mes (en dólares). Edad: edad promedio de la base de clientes (en años).Hs: porcentaje de la base de clientes con diploma de bachillerato.Universidad: porcentaje de clientes con diploma universitario.Crecimiento: tasa de crecimiento anual de la población en los últimos 10 años.Ingreso (x): ingreso promedio familiar de la base de clientes (en dólares).

TABLA DE DATOS

VENTAS

EDADCRECIMIENT

OINGRESO

SHS

UNIVERSIDAD

169571333.157

40.8299 26748.5

73.5949

17.8350

340386232.666

70.6619 53063.8

88.4557

31.9439

271035335.655

30.9688 36090.1

73.5362

18.6198

52921533.072

80.0821 32058.1

79.1780

20.6284

66368735.758

50.4646 47843.4

84.1838

35.2032

254632433.813

22.1796 50181.0

93.4996

41.7057

278704630.979

71.8048 30710.1

78.0234

28.0250

61269630.784

3-0.0569 29141.7

70.2949

15.0882

89182232.316

4-0.1577 25980.2

70.6674

10.9829

112496832.531

20.3664 18730.9

63.7395

13.2458

90950131.440

02.2256 31109.2

76.9059

19.5500

2631167 33.161 1.5158 35614.1 82.945 20.8135

3 2

88297331.873

60.1413 23038.4

65.2127

16.9796

107857333.407

2-1.0400 34531.7

73.4944

32.9920

84432034.047

01.6836 30350.4

80.2201

22.3185

184911928.887

92.3596 38964.9

87.5973

24.5670

386000736.105

60.7840 49392.8

85.3041

30.8790

82657432.808

30.1164 25595.7

65.5884

17.4545

60468333.053

81.1498 29622.6

80.6176

18.6356

190361233.499

60.0606 31586.1

80.3790

38.3249

235680832.680

91.6338 39674.6

79.8526

23.7780

278857228.516

61.1256 28879.0

81.2371

16.9300

63487832.894

51.4884 24287.1

70.2244

19.1429

237162730.502

44.7937 46711.2

87.1046

30.8843

262783830.292

21.8922 33449.8

80.2057

26.5570

186811631.291

11.8667 31694.5

75.2914

28.3600

223679733.049

81.7896 25459.2

77.6162

19.2490

131887632.934

80.2707 47047.3

85.1753

35.4994

186809831.838

13.0129 26433.2

74.1792

18.6375

169521931.079

423.4630 33396.7

81.6991

41.1130

270019432.180

70.7041 26179.4

73.4140

17.8566

115605031.694

4-0.1569 33454.6

73.7161

26.5426

64385834.026

30.7084 42271.5

78.6493

29.8734

218868734.731

50.1353 46514.8

80.9503

24.5374

830352 30.561 0.3848 27030.8 66.805 14.1390

3 7

122690633.518

30.7417 42910.1

77.8905

20.8340

56690432.395

20.6693 40561.4

79.3622

19.0309

82651829.910

80.1111 22326.0

58.3610

10.6729

A) Construir diagrama de dispersión utilizando las ventas como la variable dependiente (y) y el ingreso familiar promedio como la variable independiente (x)R.

5500050000450004000035000300002500020000

4000000

3500000

3000000

2500000

2000000

1500000

1000000

500000

Income

Sale

s

Gráfica de dispersión de Sales vs. Income

B) Calcular la ecuación de regresiónR. y=299877+39.2x i

C) Interprete el significado de b0 y b1

R. b0 es la intersección en las ventas, cuando el ingreso es cero las ventas serán de 29998.77 dólares. b1 Por cada incremento en el ingreso hay 39.2 dólares de aumento en las

ventas de artículos deportivos.

D) Calcular r2 e interprete el resultadoR. r2=14.72%Significa que el 14.72% de la variación de las ventas de productos deportivos se explica por la variación de los ingresos. Indica débil relación lineal entre las dos variables. El modelo de regresión predice Ventas de productos deportivos en un 14.72% y el otro 85.28% de variación se debe a otros factores.

E) Realizar inferencias sobre la pendiente prueba t y prueba f con nivel de significancia de ∝0.05R. Prueba T t c=2.49

0.4

0.3

0.2

0.1

0.0

X

Den

sida

d

-2.028

0.025

2.028

0.025

0


t c> t∝22.49>2.028

Rechazamos la H 0 y se acepta la alternativa, se concluye que existe una relación lineal entre los ingresos y las ventas.

Prueba F

H 0 :B1=0H 1:B1≠0

F=6.21

t c=2.49

1.4

1.2

1.0

0.8

0.6

0.4

0.2

0.0

X

Den

sida

d

0.0009958

0.025

5.471

0.025

0


Como F>Fu 6.21>5.471 Cae en la región de rechazo de H 0 por tanto se concluye que los ingresos se relaciona con las ventas.

F) Realizar análisis residual y compruebe la no violación de los supuestosR.

200000010000000-1000000-2000000

99

90

50

10

1

Residuo

Porc

enta

je

2500000200000015000001000000

2000000

1000000

0

-1000000

Valor ajustado

Res

iduo

16000008000000-800000-1600000

8

6

4

2

0

Residuo

Frec

uenc

ia

35302520151051

2000000

1000000

0

-1000000


Res

iduo



Gráficas de residuos para Sales

F=6.21

17)Prueba de normalidad: de acuerdo a la gráfica los datos están cerca de la pendiente, concluimos que no se violan los supuestos de normalidad.

18)Linealidad y Homocedasticidad: no hay patrón evidente en los residuos, no se violan los supuestos de linealidad ni homocedasticidad.



G) Estimar el intervalo de confianza para la pendiente con un nivel de confianza de 95%R. Sb1=15.7b1=39.2t n−2=2.028

b1± tn−2Sb139.2± (2.028 ) (15.7 )39.2±31.839639.2+31.8396=71.039639.2−31.8396=7.3604

(7.3604 ,71.0396)

Se estima un nivel de confianza del 95% que la pendiente de la población se encuentra entre 7.3604 y 71.0396, estos valores están por encima de cero por lo tanto se concluye que existe una relación lineal significativa entre el ingreso familiar y las ventas mensuales.Esto indica que las ventas mensuales incrementan por lo menos $7.3604 dólares pero no más de $71.0396 dólares.

ejercicios estadistica

Documents