Download - ANALISES DE REGRESIN
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
1
INTRODUCCIÓN
Como la Estadística Inferencial nos permite trabajar con una variable a nivel de
intervalo o razón, así también se puede comprender la relación de dos o más
variables y nos permitirá relacionar mediante ecuaciones, una variable en relación
de la otra variable llamándose Regresión Lineal y una variable en relación a otras
variables llamándose Regresión múltiple.
Casi constantemente en la práctica de la investigación estadística, se encuentran
variables que de alguna manera están relacionados entre si, por lo que es posible
que una de las variables puedan relacionarse matemáticamente en función de otra
u otras variables.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
2
ANÁLISIS DE PROGRESIÓN MÚLTIPLE
OBJETIVOS
Describir la relación entre dos o más variables independientes y una
variable dependiente utilizando la ecuación de regresión múltiple.
Calcular e interpretar el error estándar múltiple de estimación y el
coeficiente de determinación.
PROCEDIMIENTO
o Seleccionar una muestra a partir de una población.
o Listar pares de datos para cada observación.
o Dibujar un diagrama de puntos para dar una imagen visual de la relación.
o Determinar la ecuación de regresión.
CONCEPTOS BÁSICOS
Análisis de Regresión
Es un procedimiento estadístico que estudia la relación funcional entre
variables. Con el objeto de predecir una en función de la(s) otra(s).
Regresión Múltiple
Intervienen dos o más variables independientes.
Variable Dependiente
(Respuesta, predicha, endógena) es la variable que se desea predecir o
estimar.
Variable Independiente
(Predictoras, explicativas, exógenas), son las variables que proveen las
bases para estimar.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
3
ANÁLISIS DE REGRESIÓN MÚLTIPLE
El análisis de regresión múltiple es el estudio de la forma en que una variable
dependiente, 𝒚, se relaciona con dos o más variables independientes. En el caso
general emplearemos k para representar la cantidad de variables independientes.
Los conceptos de un modelo de regresión y una ecuación de regresión que
presentamos en el tema anterior se pueden aplicar al caso de la regresión múltiple.
La ecuación que describe la forma en que la variable dependiente, 𝒚 se relaciona
con las variables independientes 𝑥1, 𝑥2, … 𝑥𝑘 y un término de error se llama modelo
de regresión. El modelo de regresión múltiple tiene la forma siguiente:
Ejemplos:
VARIABLE DEPENDIENTE (Y) VARIABLES INDEPENDIENTES
(X1,X2,......)
Volumen de ventas, en unidades Precio unitario
Gasto de Propaganda
Peso de los estudiantes Estatura
Edad
Consumo de bienes industriales por
año
Ingreso disponible
Importación de bienes de consumo
Unidades consumidas de un bien por
familia
Precio unitario del bien
Ingreso
Número de integrantes por familia
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
4
Precio de una vivienda Nº de habitaciones
Nº de pisos
Área construida
Área techada , etc.
La técnica de regresión múltiple se usa frecuentemente en investigación, se aplica
al caso en que la variable respuesta es de tipo numérico. Cuando la respuesta es
de tipo dicotómico (muere/vive; enferma/no enferma), usamos otra técnica
denominada regresión logística.
ANÁLISIS DE REGRESIÓN MÚLTIPLE PARA 2 VARIABLES INDEPENDIENTES
Para dos variables independientes, la fórmula general de la ecuación de regresión
múltiple es:
2211' XbXbaY
X1 y X2 son las variables independientes.
a es la intercepción en Y.
b1 es el cambio neto en Y para cada cambio unitario en X1, manteniendo X2
constante. Se denomina coeficiente de regresión parcial, coeficiente de
regresión neta o bien coeficiente de regresión.
b2 es el cambio neto en Y para cada cambio unitario en X2, manteniendo X1
constante. Se denomina coeficiente de regresión parcial o bien coeficiente
de regresión.
El cálculo de estos valores es por demás laborioso a mano, por ejemplo para el caso
de las dos variables independientes, para poder resolver y obtener y en una
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
5
ecuación de regresión múltiple el cálculo se presenta muy tediosa porque se tiene
atender 3 ecuaciones que se generan por el método de mínimo de cuadrados:
ANÁLISIS DE REGRESIÓN MÚLTIPLE CON K VARIABLES INDEPENDIENTES
La ecuación general de regresión múltiple con k variables independientes es:
El criterio de mínimos cuadrados se usa para el desarrollo de esta ecuación.
Como estimar b1, b2, etc. es muy tedioso, existen muchos programas de cómputo
que pueden utilizarse para estimarlos.
ERROR ESTÁNDAR MÚLTIPLE DE LA ESTIMACIÓN
El error estándar múltiple de la estimación es la medida de la eficiencia de la
ecuación de regresión.
Está medida en las mismas unidades que la variable dependiente, es difícil
determinar cuál es un valor grande y cuál es uno pequeño para el error estándar.
La fórmula es:
)1()1(
)'( 2
12
kn
SSE
kn
YYS kY
Y a b X b X b Xk k' ... 1 1 2 2
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
6
Donde:
Y es la observación.
Y’ es el valor estimado en la ecuación de regresión.
n es el número de observaciones y k es el número de variables
independientes.
ENFOQUE MATRICIAL PARA ENCONTRAR LOS PARAMETROS DE LA
ECUACION DE REGRESION
Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las
operaciones matemáticas en forma matricial. Supongamos que existen k variables
independientes y n observaciones (Xi1 ,Xi2 ,Xi3,….,Xik ,Yi ), i=1,2,3,4,…,n, y que el
modelo que relaciona las variables independientes y la variable dependiente es:
ikkiii xbxbxbby ...ˆ 22110
Este modelo es un sistema de n ecuaciones que puede expresarse en notación
matricial como:
Xy
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
7
o ENFOQUE MATRICIAL
Donde:
1
3
2
1
.
.
.
xnny
y
y
y
y
pnnkiii
k
k
k
x
xxxx
xxxx
xxxx
xxxx
X
.......1
........................
........................
........................
.......1
.......1
.......1
321
3333231
2232221
1131211
1
2
1
0
.
.
.
xpkb
b
b
b
Dónde: p = k+1, número de parámetros
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2
Mide la tasa porcentual de los cambios de “y” que pueden ser explicados por: X1,
X2, X3,… simultáneamente.
Una vez estimado el modelo es conveniente obtener una medida acerca de la
bondad del ajuste realizado. Un estadístico que facilita esta medida es el coeficiente
de determinación (R2), que se define:
ANÁLISIS DE VARIANZA
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
8
Ecuación Básica para análisis de Varianza
PRUEBA GLOBAL
Ayuda a determinar si es posible que todas las Variables Independientes tengan
coeficientes de regresión neta iguales a 0. En otras palabras ¿podría la cantidad
de variación explicada R2, ocurrir al azar?
La prueba global se usa para investigar si todas las variables independientes
tienen coeficientes significativos. Las hipótesis son:
0...: 3210 kH
El estadístico de prueba es la distribución F con k (número de variables
independientes) y n - (k + 1) grados de libertad, donde n es el tamaño de la muestra.
El estadístico de prueba se calcula con:
F = [(SCR) /(k)] /[(SCE) /(n-k+1)].
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
9
TABLA ANOVA
La tabla ANOVA proporciona la variación de la variable dependiente (tanto de la que
está explicada por la ecuación de regresión como de la que no lo está).
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
10
EJERCICIOS DESARROLLADOS
1. El propietario de La cadena de cines CINE PLANET desea estimar el ingreso
semanal neto en función de los gastos de publicidad. Los datos históricos de
una muestra de 8 semanas son los siguientes:
Ingresos Brutos semanales
(en miles de dólares)
Anuncios en TV (en miles
de dólares)
Anuncios en periódicos (en
miles de dólares)
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5
Planteando matricialmente los datos
1 5.0 1.5
1 2.0 2.0
1 4.0 1.5
1 2.5 2.5
1 3.0 3.3
1 3.5 2.3
1 2.5 4.2 1894
94
94
95
92
95
90
96
x
y
X
132
1
0
x
b
b
b
8x3
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
11
Determinando la ecuación de regresión
El modelo es:
22110ˆ xbxbby
Entonces primero resolvemos las matrices para encontrar los parámetros:
Finalmente la ecuación es:
21 3010.12902.22301.83ˆ XXy
yXXX 1)(
0,2491 0,1313 -1,0353
0,1313 0,2239 -1,0389
-1,0353 -1,0389 5,9989
2
1
0
3010.1
2902.2
2301.83
1856
2401
750
b
b
b
1)( XX yX
Coeficientesa
83.230 1.574 52.882 .000 79.184 87.276
2.290 .304 1.153 7.532 .001 1.509 3.072
1.301 .321 .621 4.057 .010 .477 2.125
(Constante)
Anuncios en TV (en
miles de dólares)
Anuncios en periódicos
(en miles de dólares)
Modelo1
B Error típ.
Coeficientes no
estandarizados
Beta
Coeficientes
estandarizad
os
t Sig. Límite inferior
Límite
superior
Intervalo de confianza para
B al 95%
Variable dependiente: Ingresos Brutos semanales (en miles de dólares)a.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
12
Interpretemos los parámetros estimados de las variables independientes:
Para b1: Cuando los gastos de anunciar en televisión varían una unidad y los
gastos de anunciar en periódicos se mantienen constantes, los ingresos
brutos semanales se incrementarán en 2.2902 miles de dólares.
Para b2: Cuando los gastos de anunciar en televisión se mantienen
constantes y los gastos de anunciar en periódicos varían una unidad, los
ingresos brutos semanales se incrementarán en 1.3010 miles de dólares.
Hallando el error estándar de estimación
Para lo cual usaremos la fórmula abreviada para dos variables independientes la
cual se deriva de la forma general presentada en las fórmulas a utilizar. La fórmula
es la siguiente:
3
22110
2
. 21
n
yXbyXbybyS XXy
64.021. XXyS
o Interpretación: La distancia promedio de los valores observados alrededor
de la ecuación de regresión es de 0.64. Es decir la dispersión de los valores
observados es 0.64.
Hallando el Coeficiente de Determinación
Resumen del modelo
.959a .919 .887 .64259
Modelo
1
R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
Variables predictoras: (Constante), Anuncios en periódicos
(en miles de dólares), Anuncios en TV (en miles de dólares)
a.
919.0
959.0
2
r
r
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
13
o Interpretación: Aproximadamente el 91.9% de los cambios producidos en
los ingresos brutos semanales son explicados por los cambios producidos en
los gastos de publicidad (en televisión y periódicos).
2. “Una desea estimar los gastos en alimentación de una familia (Y) en base a
la información que proporcionan las variables regresoras X1 =“ingresos
mensuales” y X2 =“número de miembros de la familia”. Para ello se recoge
una muestra aleatoria simple de 15 familias cuyos resultados son los de la
tabla adjunta (El gasto e ingreso está dado en cientos de miles de pesetas)”
GASTO INGRESO TAMAÑO
043 21 3
031 11 4
032 09 5
046 16 4
125 62 4
044 23 3
052 18 6
029 10 5
129 89 3
035 24 2
035 12 4
078 47 3
043 35 2
047 29 3
038 14 4
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
14
Solución
Con estos datos se obtiene:
𝑛 = 15, ∑ 𝑥1𝑖 = 42 ∑ 𝑥2𝑖
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
15
𝐺𝑎𝑠𝑡𝑜 = −0′160 + 0′. 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 0′. 𝑇𝑎𝑚𝑎ñ𝑜 + 𝑒𝑟𝑟𝑜𝑟
A partir de esta ecuación se obtienen las predicciones y los residuos
asociados a las observaciones muestrales. Para la primera observación 𝑥1 =
2′1; 𝑥2 = 3; 𝑦 = 0′43 se obtiene:
𝑦1̂ = −0′160 + 0′. 2′1 + 0′. 3 = 0′3839
𝑒1 = 𝑦1 − �̂�1 = 0′43 − 0′3839 = 0′0461
PREDICCIONES
0’38 0’41 0’33
0’31 0’57 0’77
0’36 0’37 0’51
0’39 1’39 0’50
1’07 0’35 0’36
Por tanto
𝑆 = 𝑋𝑇𝑋 = (15 42′00 55′0042 188′08 150′8055 140′80 219′00
) 𝑦 𝑇 = (8′070
32′06328′960
)
De donde
�⃗� = 𝑆−1𝑇 = (1′360 −0′092 −0′282
−0′092 0′016 0′013−0′282 0′013 0′067
) (8′070
32′06328′960
) = (−0′1600′1490′077
)
El modelo de regresión lineal que se obtiene es:
𝐺𝑎𝑠𝑡𝑜 = −0′160 + 0′. 𝐼𝑛𝑔𝑟𝑒𝑠𝑜 + 0′. 𝑇𝑎𝑚𝑎ñ𝑜 + 𝑒𝑟𝑟𝑜𝑟
A partir de esta ecuación se obtienen las predicciones y los residuos
asociados a las observaciones muestrales. Para la primera observación
(𝑋1 = 2′1; 𝑋2 = 3; 𝑌 = 0′43) se obtiene
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
16
𝑌1 = −0′160 + 0′. 2′1 + 0′077.3 =̂ 0′3839
𝑒1 = 𝑦1 − 𝑦1̂ = 0′43 − 0′3839 = 0′0461
Razonando así en todos los puntos muestrales se obtiene
PREDICCIONES
0’38 0’41 0’33
0’31 0’57 0’77
0’36 0’37 0’51
0’39 1’39 0’50
1’07 0’35 0’36
Cálculo de SCR
𝑆𝐶𝑅 = ∑ 𝑒𝑖2 = 0′0721
�̂�𝑅2 = 0′0060 → �̂�𝑅 = 0′0775
Se calculan los intervalos de confianza de los parámetros del modelo al 90%
Para la varianza, 𝜎2
12.0′0060
𝜎2~𝑋12
2
52253 <0′072
𝜎2≤ 210298
00034 ≤ 𝜎2 ≤ 00138
La varianza de los estimadores del módulo es
𝑉𝑎𝑟(∝̂) = 𝜎2(𝑋𝑡𝑋)−1 ≈ 0′. (1′360 −0′092 −0′282
−0′092 0′016 0′013−0′282 0′013 0′067
)
RESIDUOS
-0’046 -0’028 -0’024
0’001 0’048 -0’011
0’038 0’083 0’084
-0’075 0’104 0’032
-0’180 0’000 -0’025
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
17
De donde se deduce que
𝑉𝑎𝑟(�̂�0) = 000816 → 𝜎(�̂�0) = 00903
𝑉𝑎𝑟(�̂�1) = 0000099 → 𝜎(�̂�1) = 00099
𝑉𝑎𝑟(�̂�2) = 000040 → 𝜎(�̂�2) = 00201
Intervalo de confianza para ∝0
𝑡12(0′05) ∗ 00903 ≤ 0160 ∗ 𝛼0 ≤ 𝑡12(0′95) ∗ 00903
−0321 ≤ 𝛼0 ≤ 0001
Intervalo de confianza para 𝛼1(ingreso)
𝑡12(0′05) ∗ 00099 ≤ 0149 ∗ 𝛼1 ≤ 𝑡12(0′95) ∗ 00099
01314 ≤ 𝛼1 ≤ 01666
Contrate 𝐻0 ≡ 𝛼1 = 0, “la variable ingreso no influye” (contraste individual
de la t)
�̂�1 =0′149
0′0099= 15′050~𝑡12
𝑝1 = 0′000 → 𝑠𝑒𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
Intervalo de confianza para 𝛼2(𝑡𝑎𝑚𝑎ñ𝑜)
𝑡12(0′05) ∗ 00201 ≤ 0077 ∗ 𝛼2 ≤ 𝑡12(0′95) ∗ 00201
00412 ≤ 𝛼2 ≤ 01128
Contrate 𝐻0 ≡ 𝛼2 = 0, “la variable tamaño no influye” (contraste individual de
la t)
�̂�2 =0′077
0′0201= 3′831~𝑡12
𝑝2 = 0′0012 → 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝐻0
Tabla anova
𝑆𝐶𝐺 = ∑(𝑦𝑖 − �̂�)2 = 1′4316
𝑆𝐶𝐸 = 𝑆𝐶𝐺 − 𝑆𝐶𝑅 = 1′3595
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
18
Con estos datos se obtiene el siguiente contraste conjunto de la F.
Ahora se calcula el contraste individual de la F respecto a la variable
x2=tamaño, contraste que es equivalente al contraste indicidua de la t. para
ello, se obtiene la regresión de la variable gasto respecto a la variable
ingreso.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
19
3. Como parte de un estudio para investigar la relación entre la tensión nerviosa
(estrés) y otras variables (tamaño de la
empresa, número de años en la posición actual, salario anual en miles de
dólares, edad en años), se reunieron los siguientes datos a partir de una
muestra aleatoria simple de quince ejecutivos de una empresa.
La salida de análisis con SPPS es:
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
20
A. Escriba la recta de regresión múltiple estimada a partir de estos datos.
Interprete los coeficientes de regresión.
B. ¿Cuál es el valor del coeficiente de determinación que usaría para describir
la bondad de ajuste del modelo? Interprételo en términos del problema de
regresión.
C. Examine los tests t de los coeficientes de regresión. ¿Le parece que es este
un modelo adecuado para describir el estrés o propone otro?
D. Qué supuestos se deben cumplir para la utilización de este modelo.
E. Dé un estimador de la desviación estándar poblacional. ¿A qué se refiere
esta medida de variabilidad?
SOLUCIÓN
PREGUNTA A
La recta de regresión es:
Estrés= −126,505+ 0,176Tamaño−1,563Años+1,575Salario+1,629Edad
Interpretación de los coeficientes de regresión:
Intercepto= -126,505 Si el tamaño de la empresa, el número de años, el
salario y la edad fueran cero, es decir, si todas las variables explicativas
fueran cero, el puntaje de estrés del ejecutivo sería menos 126,505.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
21
Pendiente de Tamaño: Por cada unidad que aumenta el tamaño de la
empresa, el estrés del ejecutivo aumenta en 0,176 unidades.
Pendiente de Años: Por cada año en posición actual, el estrés del ejecutivo
disminuye en 1,563 puntos.
Pendiente de Salario: Por cada mil dólares que aumenta el salario, el estrés
del ejecutivo aumenta en 1,575 puntos.
Pendiente de la edad: por cada año de edad, el estrés del ejecutivo aumenta
en 1,629 puntos.
PREGUNTA B
El coeficiente de determinación que se usa en regresión lineal múltiple es el R2
ajustado, que en este caso es de 0,779.
Este coeficiente nos indica que las variables usadas en el modelo explican en
un 77,9% la variabilidad total del estrés.
PREGUNTA C
Los test t de los coeficientes de regresión sirven para docimar la hipótesis:
Ho: β j = 0
H1: β j ≠ 0 En este problema tenemos 4 tests de esta forma (j=1,2,3,4)
Por lo tanto este no sería un modelo adecuado para describir el estrés de los
ejecutivos, deberíamos ajustar otro modelo sin la variable "Años en posición
actual".
Al examinar los valores p correspondientes a cada uno de los tests nos
damos cuenta que casi todas las pendientes son significativas (distintas de
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
22
cero), salvo la de la variable Años en posición actual, cuyo valor p es 0,455,
por lo tanto aceptamos la hipótesis nula, y concluimos que la pendiente es
igual a cero.
PREGUNTA D
Los supuestos que debe cumplir el modelo son:
Linealidad: La relación entre la variable respuesta y las explicativas debe
ser lineal
Nocolinealidad: las variables explicativas no deben estar correlacionadas
entre sí Normalidad de los residuos
Homocedasticidad de los residuos (varianza constante).
PREGUNTA E
Este es un estimador de la variabilidad del estrés considerando las
variables explicativas del modelo, y lo podemos contrastar con el estimador
de la variabilidad del estrés de 51,164 que es la desviación estándar del
estrés sin tomar en cuenta estas variables.
El estimador de la desviación estándar poblacional es 24,031 o la raíz de la
media cuadrática residual: raíz de 577,493= 24,03.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
23
4. De una determinada empresa se conocen los siguientes datos, referidos al
volumen deventas ( en millones de pesetas) y al gasto en publicidad ( en
miles de pesetas) de los últimos 6 años:
a. ¿Existe relación lineal entre las ventas de la empresa y sus gastos en
publicidad? Razona la respuesta. Obtener las rectas de regresión mínimo
cuadrático.
b. ¿Qué volumen de ventas de la empresa se podría esperar en un año que se
gaste de publicidad 60000 pesetas? ¿ Y para un gasto en publicidad de
200000 pesetas?
c. Si lo único que interesase fuese la evolución del volumen de ventas en
términos de gastos en publicidad, sin tener en cuenta la cantidad concreta de
cada uno de ellas, ¿existiría correlación ordinal entre ambas variables?
SOLUCIÓN
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
24
Ahora calculamos el coeficiente de determinación lineal para obtener una
medida descriptiva del grado de asociación lineal que existe entre las variables.
La expresión del coeficiente de determinación es:
Donde Sxy representa la covarianza de las variables X e Y. Cuya expresión
simplificada es:
Para clarificar la forma de cálculo construimos la siguiente tabla: ( variable X=
Gastos de publicidad y variable Y= Volumen de ventas)
X= 49.333; Y=21.5; sx=20.870; sxy=158
Substituyendo obtenemos que r2 vale 0.956 que es lo que cabía esperar
después de observar el diagrama de dispersión.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
25
PREGUNTA b
Si expresamos las rectas de regresión como y*= a+bx y x*=c+dy los coeficientes
de los calculados son como:
Aplicándolas a este problema obtenemos las rectas de regresión:
Y*=3.604+0.363x ; X*=-7.356+2.637y
PREGUNTA c
Si el gasto es de 200 millones de pesetas no podemos utilizar la recta de
regresión puesto que el valor 200 esta fuera del recorrido del gasto en publicidad.
Si sustituimos nos da un valor de 76204 millones de pesetas, pues las rectas
sólo son válidas dentro del rango o para valores próximos a los extremos del
recorrido.
obtendremos un volumen de ventas de x*=3.604+0.363*60=25.384 millones de
pesetas.
Para realizar la predicción del volumen de ventas utilizamos la recta de regresión
que tienen las ventas en función de los gastos en publicidad. Para un gasto en
publicidad de 60000 pesetas
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
26
PREGUNTA d
El coeficiente de Spearman cuando no existen empates en los rangos, como
ocurre en estos datos, tiene la siguiente expresión:
En este caso rs es 1 por tanto existe correlación ordinal positiva y perfecta, es
decir a mayor gasto en publicidad mayor volumen de ventas.
5. Desarrollar el siguiente problema
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
27
Ejercio 2
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
28
6. Desarrollar el siguiente ejercicio
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
29
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
30
7. Desarrollar el siguiente ejercicio
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
31
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
32
r=0,928
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
33
8. Desaroollar el siguiente problema
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
34
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
35
9. La compañía Logical, un fabricante de ordenadores con sede en las Islas
Canarias, está intentando estimar su nivel de ventas para el próximo año.
Para ello ha recabado la siguiente información, referente a sus 10
competidores más próximos dentro del sector informático. ¿Podría usted dar
una predicción de ventas si sabemos que Logical cuenta con un presupuesto
publicitario anual de 23.000 euros para atender sus 5 mercados y un precio
medio de venta de 978?
a)
Y= 99.55+20.76X1+-0.11X2+5.28X3
b) Bi=0
Bi≠0
Valor T+- 1.943 Estado Significativo.
Mercados de atención: Texp≥ 1.943 Rechazo Ho.
Precio de Venta: Texp≤ 1.943 No rechazo Ho.
Presupuesto de publicidad: Texp ≥ 1.943 Rechazo Ho.
c)
Y= -9.57 + 18.82X1+5.93X3
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 99.5515247 138.098504 0.72087331 0.49810014 -238.36334 437.466389
Mercados atendidos20.761025 6.92886558 2.99630938 0.02412284 3.80670169 37.7153482
Precio de Venta-0.11162173 0.13914726 -0.80218418 0.45303883 -0.4521028 0.22885934
Presupuesto de publicidad5.28452385 2.13181872 2.4788805 0.04787791 0.06815138 10.5008963
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción -9.57760668 23.1425301 -0.41385305 0.69136744 -64.3009945 45.1457811
Mercados atendidos 18.8283941 6.32893699 2.97496943 0.02066165 3.86283619 33.793952
Presupuesto de publicidad 5.93463981 1.9208976 3.08951389 0.01757898 1.39243876 10.4768409
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
36
d)
Análisis de Regresión.
Relación entre Y y X es fuerte y positiva.
Grado de asociación. El 97% de la variación de Y se puede explicar por
la asociación de Y con X.
Más próximo a 1 es mejor el modelo.
Error estándar de estimación.
RESIDUOS:
Y= 99.55+20.76X1+-0.11X2+5.28X3
Y= 99.55+20.76 (5)+0.11 (978)+5.28 (23.000)
Y= 99.55+103.8+107.58+121.44
Y= 432.37
Observación Pronóstico Ventas Residuos
1 124.0578931 4.92010689
2 131.4761929 25.4208071
3 275.3489463 0.54505367
4 469.760373 -44.115373
5 203.25716 -1.69015995
6 232.6788861 -11.1938861
7 684.6581762 5.05582379
8 403.6573576 -15.6703576
9 337.0269384 -16.8999384
10 524.5170765 53.6279235
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.98980071
Coeficiente de determinación R^2 0.97970544
R^2 ajustado 0.973907
Error típico 29.7074579
Observaciones 10
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
37
GRAFICO:
Mercados atendidos Curva de regresión ajustada
0
100
200
300
400
500
600
700
800
0 5 10 15 20
Mercados atendidos
Ven
tas
Ventas
Pronóstico Ventas
Presupuesto de publicidad Curva de regresión
ajustada
0
100
200
300
400
500
600
700
800
- 20.000 40.000 60.000 80.000
Presupuesto de publicidad
Ven
tas
Ventas
Pronóstico Ventas
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
38
10. En una encuesta realizada a 15 estudiantes de la Universidad de Illinois, se
obtuvieron los resultados recogidos en la tabla que se muestra más abajo.
La variable estudiada fue la puntuación alcanzada en los exámenes (y). Para
intentar analizar su comportamiento se recogieron datos como el número de
horas semanales dedicadas al estudio (x1), el número de horas
específicamente dedicadas a los exámenes (x2), el número de horas
pasadas en bares o discotecas (x3), si los estudiantes tomaban apuntes en
clase (x4 =1 Sí, =0 No), y el número medio de horas de clase semanales (x5).
Intente ajustar un modelo de regresión que explique las calificaciones de los
estudiantes en función de los valores de las otras variables.
a)
Y= 0.22+(-0.65X1)+6.04X2+8.82X3+(-3.34X4)+1.58X5
b)
βi=0
βi≠0
Valor T +-: 1.83
X1: Texp≤1.83 No rechazo Ho.
X2: Texp≥1.83 Rechazo Ho.
X3: Texp≥1.83 Rechazo Ho.
X4: Texp≤1.83 No Rechazo Ho
X5: Texp≥1.83 Rechazo Ho.
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 0.21930858 22.5088364 0.00974322 0.99243871 -50.6992169 51.1378341
x1 -0.65888017 0.6027826 -1.09306435 0.30275813 -2.02246915 0.70470881
x2 6.03734957 2.98176966 2.02475384 0.07355516 -0.707882 12.7825811
x3 8.82244734 1.96522843 4.48927322 0.0015121 4.37679179 13.2681029
x4 -3.33725047 6.91722163 -0.48245533 0.64099986 -18.9850929 12.3105919
x5 1.58121444 0.76649084 2.06292673 0.06915169 -0.1527083 3.31513717
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
39
c)
Y= -17.76+6.71X2+8.08X3+1.92X5
d) Análisis de regresión.
Relación entre Y y X es fuerte y positiva.
Grado de asociación. El 80% de la variación de Y se puede explicar por la
asociación de Y con X.
Más próximo a 1 es mejor el modelo.
Error estándar de estimación.
RESIDUOS:
Y= 0.22+(-0.65X1)+6.04X2+8.82X3+(-3.34X4)+1.58X5
Observación Pronóstico y Residuos
1 94.9674815 -7.96748149
2 32.5026244 -16.5026244
3 63.4610594 -9.46105939
4 92.9114529 5.08854713
5 63.4610594 -8.46105939
6 64.9691009 -4.96910091
7 104.966942 -7.96694169
8 90.7178268 9.28217319
9 86.3348825 -8.33488254
10 57.2991866 15.7008134
11 54.0095863 3.99041369
12 55.3790778 1.62092222
13 100.30522 -2.30521971
14 73.0484523 16.9515477
15 58.6660478 13.3339522
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción -17.7665162 17.7394755 -1.00152432 0.33809585 -56.8108386 21.2778062
X2 6.71249014 2.89725151 2.31684758 0.04080375 0.33568257 13.0892977
X3 8.08198161 1.81817859 4.44509779 0.00098666 4.08019753 12.0837657
X5 1.91747858 0.71883566 2.66747839 0.02189238 0.33533197 3.49962519
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.8964573
Coeficiente de determinación R^2 0.80363569
R^2 ajustado 0.75008179
Error típico 11.6857902
Observaciones 15
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
40
GRAFICO:
0
20
40
60
80
100
120
0 1 2 3 4 5 6
Y
X2
X2 Curva de regresión ajustada
Y
Pronóstico Y
0
20
40
60
80
100
120
0 2 4 6 8 10
Y
X3
X3 Curva de regresión ajustada
Y
Pronóstico Y
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
41
11. La Casa Bonita, agencia inmobiliaria del barrio de la Rosilla, está intentando
estimar un modelo que pueda predecir el precio de venta de una casa. Para
ello cuenta con el cuadro que se muestra al final:
a)
Y= 8.42+0.30X1+7.40X2+0.36X3
b)
βi=0
βi≠0
Valor T +-: 1.860
Metro cuadrados: Texp≥1.860Rechazo Ho.
Habitaciones: Texp≥1.860 Rechazo Ho.
Años del edificio: Texp≤1-860 No rechazo Ho.
0
20
40
60
80
100
120
0 5 10 15 20 25 30 35
Y
X5
X5 Curva de regresión ajustada
Y
Pronóstico Y
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 8.42973317 12.6821023 0.66469525 0.52493868 -20.8152472 37.6747135
Metros cuadrados0.30038693 0.12951636 2.31929712 0.04897313 0.00172166 0.59905219
Habitaciones 7.40185503 1.36898468 5.40682095 0.00064078 4.24497071 10.5587394
Año del edificio0.36782657 0.24488765 1.50202173 0.17149138 -0.19688536 0.93253851
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
42
c)
Y= 21.69+0.31X1+6.78X2
d) Análisis de regresión.
Relación entre Y y X es fuerte y positiva.
Grado de asociación. El 97% de la variación de Y se puede explicar por la
asociación de Y con X.
Más próximo a 1 es mejor el modelo.
Error estándar de estimación.
RESIDUOS:
Observación Pronóstico Precio de Venta (1000$)Residuos
1 56.95122341 -7.20122341
2 62.21089799 5.73910201
3 70.20647098 10.943529
4 76.70371604 4.89628396
5 84.43853159 7.06146841
6 103.2628464 -8.01284636
7 105.7379873 -5.38798734
8 104.8098095 -0.55980947
9 120.8495906 -8.19959064
10 152.3103677 -2.61036773
11 168.6595415 -8.00954152
12 221.1590169 11.3409831
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 21.6877396 9.72095113 2.23103062 0.05260819 -0.30257955 43.6780588
Metros cuadrados 0.30970443 0.13810047 2.24260237 0.05162337 -0.00270053 0.62210939
Habitaciones 6.78126514 1.39324917 4.86723071 0.00088691 3.62951656 9.93301371
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.98804393
Coeficiente de determinación R^2 0.97623081
R^2 ajustado 0.97094877
Error típico 8.42457471
Observaciones 12
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
43
Y= 8.42+0.30X1+7.40X2+0.36X3
Y= 8.42+0.30 (100)+7.40 (6)+0.36 (30)
Y= 8.42+30+44.4+10.8
Y= 165.62
El precio de venta de la cada seria $165.62.
• GRAFICO:
0
50
100
150
200
250
0 50 100 150 200 250 300
Pre
cio
de
Ve
nta
(1
.00
0$
)
Metros cuadrados
Metros cuadrados Curva de regresión ajustada
Precio de Venta (1.000$)
Pronóstico Precio de Venta (1.000$)
0
50
100
150
200
250
0 5 10 15 20
Pre
cio
de
Ve
nta
(1
.00
0$
)
Habitaciones
Habitaciones Curva de regresión ajustada
Precio de Venta (1.000$)
Pronóstico Precio de Venta (1.000$)
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
44
12. La empresa Casino Blues tiene su mercado dividido en 8 regiones. Para
predecir el impacto de su política publicitaria cuenta con un modelo
matemático de regresión que intenta explicar las ventas de cada región en
base a las siguientes variables:
a)
Y= 121+0.10X1+0.12X2+(-0.14X3)+(-0.32X4)+(-0.16X4)
b)
βi=0
βi≠0
Valor T +-: 2.132
o Ventas: Texp≥ 2.132 Rechazo Ho.
o Número de vendedores: Texp≤2.132 No Rechazo Ho.
o Presupuesto de publicidad: Texp≥2.132 Rechazo Ho.
o Número de anuncios mensuales en Televisión: Texp≥ 2.132
Rechazo Ho.
o Minutos de radio de publicidad de la competencia: Texp≥ 2.132
Rechazo Ho.
c)
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 121.5495081 52.0870892 2.33358227 0.07993785 -23.0674359 266.166452
Ventas 0.099057493 0.03191752 3.10354576 0.03609683 0.01044024 0.18767474
Número de vendedores 0.119758613 0.15953102 0.7506917 0.49458619 -0.32317051 0.56268774
Presupuesto de publicidad -0.140345136 0.04993264 -2.81068931 0.04828306 -0.27898037 -0.0017099
Número de anuncios mensuales en Televisión -0.319834756 0.14956471 -2.13843728 0.09926194 -0.73509297 0.09542346
Minutos de radio de publicidad de la competencia -0.163972824 0.06924088 -2.36815061 0.07697587 -0.35621632 0.02827067
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción 99.3255928 40.9427569 2.4259625 0.05967694 -5.92111426 204.5723
Ventas 0.09219363 0.02921468 3.15572998 0.02521589 0.01709491 0.16729234
Presupuesto de publicidad -0.11620067 0.03648931 -3.18451299 0.02441448 -0.20999942 -0.02240192
Número de anuncios mensuales en Televisión -0.25374332 0.11550912 -2.19673844 0.07941948 -0.55066895 0.04318232
Minutos de radio de publicidad de la competencia -0.13553151 0.05536861 -2.4478041 0.0580931 -0.27786104 0.00679803
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
45
Y= 99.33 + 0.09X1+ (-0.12X3)+ (-0.25X4) + (-0.14X5)
d) Análisis de Regresión.
Relación entre Y y X es fuerte y positiva.
Grado de asociación. El 83% de la variación de Y se puede explicar por la
asociación de Y con X.
Más próximo a 1 es mejor el modelo.
Error estándar de estimación
RESIDUOS:
GRAFICOS
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.91580885
Coeficiente de determinación R^2 0.83870584
R^2 ajustado 0.70967051
Error típico 1.63136557
Observaciones 10
Observación Pronóstico Region Residuos
1 1.01684559 -0.01684559
2 3.046877641 -1.04687764
3 3.357973188 -0.35797319
4 5.238554624 -1.23855462
5 4.75955471 0.24044529
6 6.430888453 -0.43088845
7 5.391744294 1.60825571
8 6.690318719 1.30968128
9 10.76579894 -1.76579894
10 8.301443841 1.69855616
0
2
4
6
8
10
12
0 200 400 600 800
Re
gio
n
Ventas
Ventas Curva de regresión ajustada
Region
Pronóstico Region
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
46
0
2
4
6
8
10
12
0 200 400 600 800
Re
gio
n
Presupuesto de publicidad
Presupuesto de publicidad Curva de regresión ajustada
Region
Pronóstico Region
0
2
4
6
8
10
12
0 50 100 150
Re
gio
n
Número de anuncios mensuales en Televisión
Número de anuncios mensuales en Televisión Curva de regresión ajustada
Region
Pronóstico Region
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
47
13. Día lluvioso, un fabricante de gafas de sol está planificando su producción
para el año que viene. Para ello cuenta con las ventas de los últimos 8 años
que se muestran a continuación:
a)
Y= -1.93+ 0.086X1
b)
Relación entre Y y X es fuerte y positiva.
Grado de asociación. El 98% de la variación de Y se puede explicar por la
asociación de Y con X.
Más próximo a 1 es mejor el modelo.
0
2
4
6
8
10
12
0 200 400 600 800
Regi
on
Minutos de radio de publicidad de la competencia
Minutos de radio de publicidad de la competencia Curva de regresión ajustada
Region
Pronóstico Region
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99227152
Coeficiente de determinación R^2 0.98460276
R^2 ajustado 0.98203656
Error típico 0.32829966
Observaciones 8
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%
Intercepción -1.93991744 0.34866027 -5.56391885 0.00142759 -2.79305838 -1.0867765
Ventas ( en miles de unidades) 0.08615274 0.0043983 19.5877581 1.1474E-06 0.0753905 0.09691498
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
48
Error estándar de estimación.
PRUEBA DE HIPOTESIS:
1) βi=0
βi≠0
2) α=0.05
3) Valor t +- 1.943 Estado significativo
• Rechazo H0: Texp≥ -1.943 o Texp≥1.943
• No Rechazo H0:-1.943 ≤ Texp ≤1.943
4) Texp=19.58
5) Como Texp≥ 1.943 entonces Rechazo H0.
6) Existe evidencia estadística del cociente de la variable x es diferente de 0
con un nivel de significación del 95%.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
49
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
50
1. Se realiza un experimento para determinar la duración de vida de ciertos
circuitos electrónicos (Y) en función de dos variables de fabricación (X1) y
(X2), con los siguientes resultados.
a. Ajustar un modelo de regresión lineal.
b. Calcular el coeficiente de determinación y la varianza residual. ¿ES
EL AJUSTE ADECUADO?
c. Construir un intervalo de confianza al 90% para la predicción en el
punto (0,0).
2. Los datos de la tabla adjunta indican la gravedad especifica (X1), contenido
de humedad (X2) y fuerza Y de diez vigas de madera. Encontrar el modelo
de regresión que mejor se ajusta a estos datos.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
51
3. La demande de un tipo de impresoras ha cambiado debido a una rápida
variación en el precio. Se a observado la demanda (Y) en una amplia región
geográfica y el precio unitario (X) (en unidades de 10 mil pesetas). Los
resultados son de la tabla adjunta. Ajustar un polinomio de regresión a estos
datos que explique el comportamiento de la demanda.
FACULTAD DE ARQUITECTURA URBANISMO E INGENIERÍA CIVIL
52
BIBLIOGRAFÍA
Esta detallada información ha sido obtenida de la página de internet:
Google.com
http://dm.udc.es/asignaturas/estadistica2/secprac_5_3.html
http://es.slideshare.net/juancasa2791/regresion-multiple2