módulo 5 análisis de regresión y series de tiempo
TRANSCRIPT
Módulo 5
Análisis de Regresión y
Series de Tiempo
MÓDULOANÁLISIS DE
REGRESIÓN Y SERIES DE TIEMPO
MODELO LINEAL GENERALIZADO SERIES DE TIEMPO
INTRODUCCIÓN
Variable de Interés Variable Explicativa
Ventas Tiempo de promoción en T.V.
Accidentes Medidas preventivas implementadas.
Accidentes en carretera Velocidad, longitud y condiciones de la carretera.
Personas que desarrollan una enfermedad
Edad, sexo, ocupación y hábitos.
Tiempo de vida de una persona
Edad, sexo, ocupación y hábitos.
EJEMPLOEn cierta compañía, la prima de un seguro temporal con un plazo de 5 años y una suma asegurada de $300,000 en mujeres con edades comprendidas entre 50 y 70 años cumplidos, es la siguiente:
EJEMPLO
¿Qué efecto tiene la edad en el monto de la prima que se debe pagar?
Edad Prima50 1,14651 1,25452 1,39253 1,53954 1,70755 1,89656 2,07357 2,26258 2,45459 2,62260 2,79361 2,99762 3,19263 3,46864 3,83465 4,24566 4,75567 5,32568 5,91669 6,54370 7,197 Fuente: AMIS
* Prima anual total
EJEMPLO
Fuente : AMIS
0
1,000
2,000
3,000
4,000
5,000
6,000
7,000
8,000
50 55 60 65 70
Prim
a
Edad
Monto de la prima por edad
EJEMPLO
0
1,000
2,000
3,000
4,000
5,000
6,000
7,000
8,000
50 55 60 65 70
Prim
a
Edad
Monto de la prima por edad
Prima = 496.35 + 277.08* Años transcurridos a partir de 50
Por cada año de edad que una mujer supere los 50, el costo de la prima aumentará en $277.
EJEMPLO Edad Prima Estimación Diferencia50 1,146 496 65051 1,254 773 48152 1,392 1,051 34153 1,539 1,328 21154 1,707 1,605 10255 1,896 1,882 1456 2,073 2,159 -8657 2,262 2,436 -17458 2,454 2,713 -25959 2,622 2,990 -36860 2,793 3,267 -47461 2,997 3,544 -54762 3,192 3,821 -62963 3,468 4,098 -63064 3,834 4,375 -54165 4,245 4,653 -40866 4,755 4,930 -17567 5,325 5,207 11868 5,916 5,484 43269 6,543 5,761 78270 7,197 6,038 1,159
MODELO LINEAL GENERAL
MODELO LINEAL GENERAL
Parte determinística
Parte aleatoria
• La parte funcional es conocida pero contiene parámetros desconocidos• Es una función lineal de parámetros desconocidos
• Es una variable aleatoria no observable
Variable dependiente
Y = β0 + β1X + ε
Observación
Parte fija Parte aleatoria (determinista) (error)
MODELO ESTADÍSTICO LINEAL SIMPLE
y
x
Yi = β0 – ß1 xi + ei
Diferencia entre observado y estimado
MODELO ESTADÍSTICO LINEAL SIMPLE
y
x
¿Cuántas líneas se pueden trazar?
MODELO ESTADÍSTICO LINEAL SIMPLE
MODELO ESTADÍSTICO LINEAL SIMPLE
Características del Modelo Lineal:
• Sean Y una variable respuesta o dependiente,• x una variable explicativa o independiente,
ambas variables observables.
• β0 y β1 dos parámetros desconocidos donde β0
es el punto donde la recta intercepta al eje de las y β1es la pendiente de la recta.
• ε el error es una variable aleatoria.
MÍNIMOS CUADRADOS
Para determinar los valores estimados de β0 y β1 utilizamos el método de mínimos cuadrados o suma de los cuadrados de los errores.
(n ∑xiyi - ∑xi ∑yi )
n ∑xi2 – (∑xi)2
β0 = y - β1 x
Λ
Λ
β1 =
Λ
Ejemplos
Un hotel en la periferia obtiene su ingreso bruto de la renta de sus instalaciones y de su restaurante. Los propietarios tienen interés en la relación entre el número de habitaciones ocupadas por noche y el ingreso por día en el restaurante. En la siguiente tabla se presenta una muestra de 25 días (de lunes a jueves) del año pasado que indica el ingreso del restaurante y el número de habitaciones ocupadas.
EjemplosDía Ingreso Habitaciones
Ocupadas1 1,452 232 1,361 473 1,426 214 1,470 395 1,456 376 1,430 297 1,354 238 1,442 449 1,394 4510 1,459 1611 1,399 3012 1,458 4213 1,537 5414 1,425 2715 1,445 3416 1,439 1517 1,348 1918 1,450 3819 1,431 4420 1,446 4721 1,485 4322 1,405 3823 1,461 5124 1,490 6125 1,426 39
Ejemplos
¿Considera que el ingreso del restaurante se incrementa conforme aumenta el número de habitaciones ocupadas? Justifique su respuesta.
Ejemplos
1,300
1,350
1,400
1,450
1,500
1,550
0 10 20 30 40 50 60 70
Ingr
eso
Habitaciones
EjemplosHabitaciones
OcupadasIngreso xy x2
23 1,452 33,396 529 47 1,361 63,967 2,209 21 1,426 29,946 441 39 1,470 57,330 1,521 37 1,456 53,872 1,369 29 1,430 41,470 841 23 1,354 31,142 529 44 1,442 63,448 1,936 45 1,394 62,730 2,025 16 1,459 23,344 256 30 1,399 41,970 900 42 1,458 61,236 1,764 54 1,537 82,998 2,916 27 1,425 38,475 729 34 1,445 49,130 1,156 15 1,439 21,585 225 19 1,348 25,612 361 38 1,450 55,100 1,444 44 1,431 62,964 1,936 47 1,446 67,962 2,209 43 1,485 63,855 1,849 38 1,405 53,390 1,444 51 1,461 74,511 2,601 61 1,490 90,890 3,721 39 1,426 55,614 1,521
906 35,889 1,305,937 36,432
Ejemplos
Ingreso = 1,381.99 + 1.48 * Habitaciones
PrácticaEn el archivo que se les proporcionó contiene registros de algunos indicadores a nivel nacional, realice lo siguiente.
1.Determine que efecto tiene en la confianza del consumidor el precio del dólar, la inflación y el desempleo urbano.2.Determine que variables tienen impacto en la cartera vencida de la banca comercial.3.Exponer tus resultados al grupo.
Indicadores
R2 : Coeficiente de determinación
Esta medida nos indica la proporción de variación que explica el modelo lineal
totaliaciónlicadaiación
R var
exp var2
Propiedades de R2
• R2 toma valores entre 0 y 1• Conforme R2 se vaya aproximando a 1, significa que el modelo lineal explica mejor la situación.• Conforme R2 se vaya aproximando a 0 significa que el modelo lineal no es adecuado para explicar la información.
Observación
Un coeficiente de determinación diferente de cero no significa que haya relación lineal entre las variables. Por ejemplo, R2 = 0.5 sólo nos dice que el 50% de la varianza de las observaciones queda explicado por el modelo lineal.
Fórmula
Ejemplo
Calcular el coeficiente de determinación R2 .
Ejemplo
Indicadores
Aplicando la fórmula:
El modelo lineal explica el 56.2% de la información
Correlación. r
Dos variables X e Y tienen una relación positiva si a medida que se incrementa los valores de una de las variables se incrementa los valores de la otra. De manera análoga, se dice que X e Y tienen una relación negativa si a medida que decrecen los valores de una de las variables se incrementa los valores de la otra.
IndicadoresEl coeficiente de correlación se caracteriza por tomar valores entre -1 y 1, de manera que:
• r = 1 o r = -1 cuando haya una asociación lineal exacta entre las variables (en el primer caso positiva y en el segundo, negativa).
32
Interpretación del coeficiente de correlación
Indicadores
Indicadores
Ejemplo
Ejemplo
El resultado es r = 0.7495
Relación entre r y R2
R2 = r2
r*r 0.561704893R^2 0.561704893
En nuestro ejemplo:
PrácticaEnriquezca el análisis de las series proporcionadas considerando el coeficiente de correlación y de determinación.
En el caso del índice de confianza del consumidor, ¿Qué variables explicativas se encuentran menos correlacionadas?
En el caso de la cartera vencida ¿ Qué variables explicativas tienen mayor correlación?
Exponga sus resultados al grupo
Significancia
Si en el modelo de regresión lineal la pendiente es cero, entonces la variable X no tiene ningún efecto sobre la variable Y. En este caso diremos que X no es una variable explicativa del modelo.En este apartado haremos un contraste de hipótesis sobre la pendiente de la recta de regresión para saber si podemos afirmar o no que éste es igual a cero.
Significancia
Se establece las hipótesis nula y alternativa y se contrasta:• Hipótesis nula: H0: b1 = 0, es decir, la variable X no es explicativa.• Hipótesis alternativa: H1: b1 <> 0, es decir, la variable X es explicativa.
No rechazar la hipótesis nula significa que no se puede considerar el parámetrob1 significativamente diferente de cero. Es decir, la variable X no tiene influenciasobre la variable Y y, por tanto, no existe una relación lineal entre las dos variables.
Significancia
E(β1) = β1 σ2 β1 = σ2
SCx
Λ
ΛΛ
Z = β1 - β1 σ
β1
β1 - β1
σ/√SCx=
Λ
β1 - β1 σ/√SCx
Λ
=t = s
Λ
√SCx β1 - β1
El estimador de la pendiente tiene las siguientes características
Λ
Valor esperado
Varianza del estimador
Estadístico de prueba
Muestral
SignificanciaResultado de la prueba
Zona de rechazo
Si el valor de la prueba cae en la zona de rechazo se rechaza Ho, es decir β1 es significativa por lo que x si es una variable explicativa.
2.5%
Ejercicios
Analizar la información
Ejercicios
EjerciciosA continuación se proporciona información de la tasa de mortalidad por 100,000 habitantes y la temperatura media anual de 13 ciudades. Analice la información
Cálculo en Excel
Variables consideradas: y =ICC ; x = INPC
Resumen
Estadísticas de la regresiónCoeficiente de correlación múltiple 0.47386479Coeficiente de determinación R^2 0.22454784R^2 ajustado 0.21671499Error típico 7.70056653Observaciones 101
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los
cuadrados FValor crítico
de FRegresión 1 1699.94327 1699.94327 28.66745068 5.5792E-07Residuos 99 5870.57376 59.2987248Total 100 7570.51703
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%Superior
95%Inferior 95.0%
Superior 95.0%
Intercepción 139.171693 7.41880257 18.7593203 2.30169E-34 124.45118 153.892207 124.45118 153.892207Variable X 1 -0.34597021 0.06461661 -5.35419935 5.57918E-07 -0.47418358 -0.21775684 -0.47418358 -0.21775684
Usos del modelo
• Una vez que se está conforme con el modelo, se puede emplear para predecir los valores de y.
• El modelo permite realizar predicciones de tipo Puntual y por Intervalos.
• Ejemplo– El precio de venta de un vehículo con respecto a su
kilometraje es descrito por el siguiente modelo:
Donde y es el precio de venta y x el kilometraje
Predicción Puntual
Se refiere a realizar una estimación de un valor específico de y dado un dato de x
xy 0623.17067ˆ
49
– El precio de venta de un vehículo con 40,000 Kms. es:
Se estima que un vehículo con 40.000 kms se venderá en $14,575.
575,14ˆ
)000,40(0623.17067ˆ
0623.17067ˆ
y
y
xy
Predicción Puntual
Estimación por Intervalos
50
• Se pueden usar dos intervalos para estimar en que rango caerá el valor real.
– Intervalo de Predicción: calcula un rango de valores donde es posible que se encuentre y para un valor dado de x
2
2
2/ )(
)(11ˆˆ
xx
xx
nSty
i
ge
x
yn
y1
y2
Rango para y, Dominio dado un valor específico de x
.
.
.
Estimación por Intervalos
51
– Intervalo de Confianza: estima el valor esperado de y dado un valor de x (linea recta)
2
2
2/ )(
)(1ˆˆxx
xx
nSty
i
ge
x
yn
y1
y2
Valor esperado de y, dado un valor específico de x
Límites
52
• De las ecuaciones se observa que las bandas hiperbólicas
de predicción siempre están por fuera de las de confianza.Intervalos de Confianza y Predicción
-3
-2
-1
0
1
2
3
4
5
6
7
1 2 3 4 5
Lim Inf
Lim Sup.
Yest.
Lim Inf
Lim Sup.
Confianza
Predicción
Ejemplo
53
– Obtener una estimación por intervalos para el precio de ventas de un vehículo con 40,000 kms. Con una confiabilidad del 95%:
Caso I, para un vehículo en específico
Caso II para el precio promedio del vehículo
Caso I
54
• Solución
– Un Intervalo de Predicción da el precio estimado para un vehículo de 40,000 kms
2
2
2 )(
)(11ˆˆ
xx
xx
nsty
i
g
605575.14000.340.309.4
)009.36000.40(100
11)1,303(984,1)]40000(0623.0067.17[
2
t0,025,98
Aproximadamente
Caso II
55
– Un Intervalo de Confianza da la estimación del precio promedio de un vehículo con 40.000 Kms.
2
2
2 )(
)(1ˆˆ
xx
xx
nsty
i
g
645,14
505,14
70575,14000.340.309.4
)009.36000.40(100
1)1,303(984,1)]40000(0623,0067.17[
2
LS
LI
Residuos
Análisis de Residuos
57
• Este análisis se lleva a cabo con la intención de corroborar lo siguiente:
– Que el error se distribuye normalmente.– Que la varianza del error es constante para
todos los valores de x.– Los errores son independentes entre sí.
Residuos
ResiduosRe
sidu
os
No se aprecia independencia ya que se visualiza un patrón.
ResiduosPatrones característicos que el modelo no cumple con los supuestos, es decir la varianza no es constante.
ResiduosEl supuesto de normalidad se puede verificar con un gráfico normal.
Outlier
62
Valores Alejados (Outliers)• Un “outlier” es una observación (rara o excepcional) que
normalmente es pequeña o grande.• Cuando se observa un “outlier” se necesita investigar
distintas posibilidades:– Hubo un error al registrar el valor.– El punto no pertenece a la muestra.– La observación es válida.
• Los “Outliers” se identifican en el diagrama de dispersión.• Se puede sospechar que una observación es un outlier si
su |residuo estandarizado| > 2
Outlier
63
+
+
+
++ +
+ + ++
+
+
+
+
+
+
+
El outlier causa un desplamien- to en la línea de regresión
… pero, algunos outliers pueden ser muy influyentes
++++++++++
Un outlier Una observación influyente
Práctica
64
Un banco a lo largo del tiempo ha dado a sus créditos un cierto porcentaje de descuento, conforme a la normativa se estimó que el que se debió haber dado es diferente, por lo que la autoridad desea homologarlos.
Determine una regla utilizando análisis de regresión.