regresion lineal multiple

33
8/21/12 1 Regresión lineal múltiple Cátedra de Diseño de Experimentos Escuela de Ingeniería Industrial Universidad de Costa Rica Agenda 1. Introducción al análisis de regresión múltiple 2. Análisis de regresión con software 3. Elección de las variables del modelo 4. Caso de estudio 5. Asignación de tarea 6. Revisión de casos de estudio

Upload: noheliasanchezvasquez

Post on 10-Apr-2016

114 views

Category:

Documents


12 download

DESCRIPTION

Explicación de la regresión lineal múltiple y demás

TRANSCRIPT

Page 1: Regresion Lineal Multiple

8/21/12  

1  

Regresión lineal múltiple Cátedra de Diseño de Experimentos Escuela de Ingeniería Industrial Universidad de Costa Rica

Agenda

1.  Introducción al análisis de regresión múltiple

2.  Análisis de regresión con software

3.  Elección de las variables del modelo

4.  Caso de estudio

5.  Asignación de tarea

6.  Revisión de casos de estudio

Page 2: Regresion Lineal Multiple

8/21/12  

2  

Análisis Multivariante

  En un sentido amplio se refiere a todos los métodos estadísticos que analizan simultáneamente medidas múltiples de cada individuo u objeto de investigación.

  Es el conjunto de técnicas estadísticas de análisis de datos

Regresión lineal múltiple

Page 3: Regresion Lineal Multiple

8/21/12  

3  

Regresión lineal múltiple

  Es el método de análisis más apropiado cuando el problema del investigador incluye una única variable métrica dependiente que se supone está relacionada con una o más variables métricas independientes.

  El objetivo es predecir los cambios en la variable dependiente en respuesta a cambios en varias de las variables independientes.

Regresión lineal múltiple

  Los métodos estadísticos (estocásticos) de predicción y optimización

  Conocidos de manera genérica cómo Análisis de respuesta superficial.

  La regresión múltiple es uno de ellos.

Page 4: Regresion Lineal Multiple

8/21/12  

4  

Variables independie

ntes

Ponderaciones

Valor teórico

Análisis multivariante

Valor teórico

Donde las wi son las ponderaciones de cada variable, que reflejan la influencia de cada una de ellas sobre el valor teórico en su conjunto.

Regresión lineal múltiple

Page 5: Regresion Lineal Multiple

8/21/12  

5  

Regresión lineal múltiple

Regresión lineal múltiple

  Dado este problema se busca minimizar las distancias verticales (y) desde cada uno de los puntos hasta el plano de mejor ajuste.

  Se aplica el método de mínimos cuadrados para obtener las estimaciones de los coeficientes B0, B1 y B2 en el caso que tengamos dos variables independientes.

  En este caso la ecuación que se requeriría minimizar es:

yi ! !0 +!1xi1 +!2xi2( )"# $%2&

Page 6: Regresion Lineal Multiple

8/21/12  

6  

Regresión lineal múltiple

De esta ecuación se obtiene:

y = nb0 + b1 x1 + b2 x2!!!x1y = b0 x1 + b1 x1

2 + b2 x1x2!!!!x2y = b0 x2 + b1 x1x2 + b2 x2

2!!!!

¿De qué estamos hablando?

Ejemplo

Los siguientes datos se refieren al número de torceduras requeridas para romper una barra hecha con una cierta aleación forjada y a los porcentajes de dos elementos aleantes presentes en el metal:

Page 7: Regresion Lineal Multiple

8/21/12  

7  

# Torceduras (y) % elemento A (x1) % elemento B (x2)

41 1 5

49 2 5

69 3 5

65 4 5

40 1 10

50 2 10

58 3 10

57 4 10

31 1 15

36 2 15

44 3 15

57 4 15

19 1 20

31 2 20

33 3 20

43 4 20

Con estos datos podemos calcular:

x1 = 40!

x2 = 200!

x12 =120!

x1x2 = 500!

x22 = 3000!

y = 723!x1y =1963!x2y = 8210!

Page 8: Regresion Lineal Multiple

8/21/12  

8  

723=15b0 + 40b1 + 200b21963= 40b0 +120b1 + 500b28210 = 200b0 + 500b1 +3000b2

y = 46, 4+ 7, 78x1 !1,65x2

Si se necesita conocer cuántas torceduras se requieren para

romper una de las barras cuando el porcentaje del

elemento x1 es 2,5 y el porcentaje del elemento x2 es 12

y = 46, 4+ 7, 78(2, 5)!1,65(12)= 46.0

Page 9: Regresion Lineal Multiple

8/21/12  

9  

¿Recuerdan los supuestos del modelo?

  Normalidad

  Independencia

  Misma varianza

De igual manera se prueba con los residuos

¿Qué pasaría con software? Análisis de salida del software

Page 10: Regresion Lineal Multiple

8/21/12  

10  

Caso de estudio

Durante cierta cirugía el médico puede requerir bajar la presión arterial del paciente por medio de la aplicación de cierta droga. Después de finalizada la cirugía, regresar la presión arterial del paciente a la normalidad depende de la dosis de droga administrada y el promedio de presión sistólica que el paciente mostró durante la operación.

La administración del hospital y los médicos desean estudiar la relación entre la dosis de una nueva droga, el promedio de presión sistólica durante la operación y el tiempo que toma la presión arterial del paciente en regresar a la normalidad, una vez que ha cesado la aplicación de la droga.

Regresión múltiple (Minitab)

  Los estudiantes a esta altura de la carrera ya están familiarizados con el software y el ingreso de datos

  El resultado se obtiene con la siguiente ruta:   Minitab Stat Regression

  Un ejemplo de salida del software se presenta a continuación

Page 11: Regresion Lineal Multiple

8/21/12  

11  

Veamos los resultados

1.  La ecuación de regresión.

2.  Existe regresión. El valor F es 7.36 y es significante a 0.002.

Page 12: Regresion Lineal Multiple

8/21/12  

12  

Veamos los resultados

3.  Existe relación entre la variable dependiente e independientes.

4.  El valor T nos dice también cual de las variables regresoras tiene mayor efecto sobre la variable respuesta. En este caso la dosis.

Veamos los resultados

3.  El modelo de regresión múltiple explica el 22,5 % de la variación en el tiempo de recuperación de los pacientes

4.  Además existen algunos de los datos recopilados sobre los que deberíamos prestar atención pues están muy alejados de los patrones esperados

Page 13: Regresion Lineal Multiple

8/21/12  

13  

Comprobación de supuestos

Otros análisis importantes

 R2 y R2 ajustado   R2 es el mismo valor estudiado en la regresión lineal

simple, conocido cómo Coeficiente de correlación

  R2 ajustado, se basa en una ecuación dónde el coeficiente de regresión se ajusta para incluir la ponderación relacionada a la cantidad de muestras y variables independientes en el modelo.

  Se debe tener cuidado con el rango de acción. R2 pronosticado

Page 14: Regresion Lineal Multiple

8/21/12  

14  

Otros análisis importantes

 EL Factor de inflación de la varianza (VIF)   Explica cuanto de error estándar (Se Coef) de una

variable independientes puede ser explicado por su interrelación con otras variables independientes

  Se solicita su cálculo independientemente.

  No aplica a la constante

  El valor VIF nunca puede ser menor que 1

  Si el valor VIF es grande (Mayor que 10) tenemos un problema de colinealidad.

  Con un problema de colinealidad se debería optar por trabajar con subgrupos: Stepwise Regression y Best Subsets Regression

Elección de las variables del modelo

Page 15: Regresion Lineal Multiple

8/21/12  

15  

Elección de variables predictoras

  Los problemas de investigación, generalmente asocian muchas variables a la solución de un problema

  Generalmente resulta muy difícil, sino imposible estudiarlas todas. Por esta razón debe de realizarse una elección.

  Los métodos para realizar esta elección son:   Análisis progresivo de regresión

  Análisis de mejores subconjuntos

Problemas por elección de malos regresores

 Existe cuatro posibles salidas de un análisis de regresión: i.  El modelo de regresión esta “Especificado

correctamente”

ii.  El modelo de regresión está “Sub especificado”

iii.  El modelo de regresión tiene una o más “Variables extrañas”

iv.  El modelo de regresión esta “Sobre especificado”

Page 16: Regresion Lineal Multiple

8/21/12  

16  

Las posibles salidas

 Modelo de regresión estimado correctamente

  La ecuación contiene todos los predictores relevantes y solamente los relevantes. No hay predictores del modelo perdidos, redundantes o extraños.

  Coeficientes de regresión, predicciones de respuesta y cálculo de error insesgados.

  Este es el resultado que queremos obtener.

Las posibles salidas

 Modelo de regresión sub especificado

  Cuando a la ecuación le falta uno o más predictores importantes.

  Quizás el peor escenario.

  Los predictores están sesgados.

  El error de estimación sobre estimado

  En la vida real no tenemos como distinguir estos sesgos.

Page 17: Regresion Lineal Multiple

8/21/12  

17  

Las posibles salidas

 Modelo de regresión contiene variables extrañas

  Las variables extrañas no están ligadas a la variable respuesta ni

a ninguna otra variable preditora.

  Buena noticia: la estimación de parámetros y de respuesta, así

como el MSE son insesgados.

  La mala noticia, perdemos grados de libertada para el MSE.

  Con menos grado se libertad, nuestros intervalos de confianza

son más anchos y las pruebas de hipótesis son menos potentes.

Las posibles salidas

 Modelo de regresión sobre especificado

  Cuando a la ecuación tiene una o más variables redundantes

  La estimación de parámetros y de respuesta, así como el MSE son insesgados.

  Problemas de multicolinealidad.

  Errores estándar de coeficientes de regresión están inflados

  No debería utilizarse para asignar los efectos específicos de los predictores

Page 18: Regresion Lineal Multiple

8/21/12  

18  

Recomendaciones para construcción del modelo

1.  Identifique adecuadamente su objetivo de análisis u investigación

2.  Identifique todos los posibles candidatos de predictores.

3.  Use procedimientos de selección de predictores para encontrar el balance entre modelos sub especificados y modelos con variables extrañas o redundantes.

4.  Ajuste adecuadamente el modelo (detalles de residuales, interacciones, escalas, etc).

Análisis progresivo de regresión Stepwise regression

Page 19: Regresion Lineal Multiple

8/21/12  

19  

Para esto necesitamos

Page 20: Regresion Lineal Multiple

8/21/12  

20  

Ejemplo

Investigadores están interesados en conocer cómo la composición química del cemento afecta la evolución del calor durante el endurecimiento del cemento. La variable respuesta “y” es: Evolución del calor en calorías durante el calentamiento del cemento, en una base por gramo. Y las posibles variables regresoras son:

X1= % de aluminio tri calcio

X2 = % de Silicato tri calcio

X3 = % de Aluminio ferrita tri calcio

X4= % de Silicato bi calcio

En una matriz de diagramas de dispersión se puede apreciar:

Page 21: Regresion Lineal Multiple

8/21/12  

21  

El procedimiento

Recordemos: Empezamos sin predictores y los agregamos y retiramos basados en los resultados parciales de la prueba F, es decir, los resultados de la prueba T de los parámetros

que son obtenidos hasta el momento. Nos detenemos cuando no es justificables eliminar o agregar

predictores.

Inicio del procedimiento

  Se debe definir un nivel de significancia para decidir cual variable debe entrar en el modelo, a este valor se le llamará “Alfa para entrar” , αE

  Se debe definir un “Alfa para salir” también.

  Muchos softwares estadísticos, incluido minitab, tienen configurados estos niveles de significancia en 0,15.

Page 22: Regresion Lineal Multiple

8/21/12  

22  

Paso 1

  Calcule la regresión de manera independiente de cada predictor (xn) con respecto a la variable respuesta (y).

  De los predictores que tengan un valor P de la prueba T más pequeño que 0.15, escoja al menor para incluirlo en el modelo progresivo.

  Si ninguno es más pequeño que 0.15, deténgase.

Paso 2

  Supongamos que x1 fue la variable regresora más pequeña de aquellas con el valor P menor que 0,15 en el paso 1. Es decir el mejor predictor.

  Ajuste cada pareja posibles de predictores utilizando x1, es decir: x1 y x2; x1 y x3; …. x1 y xp-1.

  La pareja de predictores que tengan un valor P de la prueba T más pequeño que 0.15, escoja al menor para incluirlo en el modelo progresivo.

  Si ninguno es más pequeño que 0.15, deténgase, el modelo con un predictor obtenido en el paso 1 es su modelo final.

Page 23: Regresion Lineal Multiple

8/21/12  

23  

Paso 2. Continuación

  Supongamos que x2 fue el mejor segundo predictor y superó el valor p para ingresar en el modelo.

  Se debe verificar si la inclusión del predictor x2 afecta de alguna manera al predictor x1.

  Es decir, si el valor P para la prueba T de x1 es más grande que 0,15, entonces debe removerse x1

Paso 3

  Supongamos que x1y x2 están dentro de un modelo progresivo de dos predictores.

  Ajuste cada uno de los modelos de tres variables predictoras restantes, es decir: x1, x2, y x3; x1, x2, y x4; x1,x2, y x5; … x1,x2 y xp-1.

  De los tríos de predictores que tengan un valor P de la prueba T más pequeño que 0.15, escoja al menor para incluirlo en el modelo progresivo.

  Si ninguno es más pequeño que 0.15, deténgase, el modelo con un predictor obtenido en el paso 1 es su modelo final.

Page 24: Regresion Lineal Multiple

8/21/12  

24  

Paso 3. Continuación

  Supongamos que x3 fue el mejor tercer predictor y superó el valor p para ingresar en el modelo.

  Se debe verificar si la inclusión del predictor x3 afecta de alguna manera a los predictores x1 y x2.

  Es decir, si el valor P para la prueba T de x1 o x2 es más grande que 0,15, entonces debe removerse x1 o x2.

Fin del procedimiento

  Se continua el procedimiento descrito hasta que el agregar una variable predictora no haga cumplir el valor de ingreso.

Page 25: Regresion Lineal Multiple

8/21/12  

25  

Ejemplo

  Retomamos el ejemplo de los cementos explicado anteriormente

  Se ajusta los valores de nivel de significancia de entrada y salida en el modelo en 0,15.

  Se calculan las regresiones de cada variable predictora independientemente.

Ejemplo

Page 26: Regresion Lineal Multiple

8/21/12  

26  

Ejemplo. Paso 2

X2 no es elegible.

X1 y x4 están empatadas

cómo efecto de Minitab. El valor p más pequeño

corresponde a x1.

Ejemplo. Paso 2

  Cómo ya se tenía un predictor, se debe verificar su nivel de significancia.

  Cómo este nivel de significancia es 0.001, ambas variables se mantienen en el modelo.

  Se continua al paso 3.

Page 27: Regresion Lineal Multiple

8/21/12  

27  

Ejemplo. Paso 3

Ejemplo. Paso 3

  Cuando el predictor x2 ingresa en el modelo, el valor P de x4 aumenta a 0,205.

  Por esta razón el predictor x4 debe salir del modelo.

Page 28: Regresion Lineal Multiple

8/21/12  

28  

Ejemplo. Paso 4

Esta sería la salida

de Minitab de este proceso

Page 29: Regresion Lineal Multiple

8/21/12  

29  

Consideraciones finales

  El último modelo obtenido, no es necesariamente el óptimo

  Aunque el procedimiento no da un único modelo final, generalmente hay varios modelos igual de buenos.

  El procedimiento por si solo no tiene conocimiento a cerca de los predictores, estos deben ser agregados por alguien que conozca el proceso.

Regresión de los mejores subconjuntos Best Subsets regression

Page 30: Regresion Lineal Multiple

8/21/12  

30  

Consideraciones generales

La idea general es elegir un subconjunto de predictores que cumpla de la mejor manera el objetivo propuesto. (El mayor

“r2” o el menor SME)

Se debe tener cuidado de incluir todos los predictores

posibles

El proceso. Paso 1

  Identifique los modelos derivados de las posibles combinaciones de todos los regresores.

  Puede ser un número muy grande de combinaciones, supongamos un ejemplo de 3 regresores, obtendremos 8 posibilidades.   Un modelo sin predictores   Tres modelos con un predictor   Tres modelos con dos predictores   Un modelo con los tres predictores

  Si hay n posibles predictores, existen 2n posibles modelos

Page 31: Regresion Lineal Multiple

8/21/12  

31  

El proceso. Paso 2

  Elija el modelo que cumpla mejor el criterio objetivo

  Los criterios objetivos pueden ser   Mayor r2

  Mayor r2 ajustada

  Menor SME

  Si se cambia el criterio, la elección puede cambiar.

  Se pueden elegir varios modelos en este punto.

El proceso. Paso 3

  Elija el modelo adecuado.

  Con los modelos obtenidos en el paso anterior, realice análisis para elegir el que mejor ajusta a sus necesidades:   Análisis de residuos

  Predicción

  Regresores

  Permita responder la pregunta de investigación

Page 32: Regresion Lineal Multiple

8/21/12  

32  

Ejemplo

  Retomemos el ejemplo del cemento.

  Si utilizamos por ejemplo R2, cada vez que agreguemos una variable se obtendrá un mejor valor, sin embargo nos ayudará a definir cuándo no vale la pena agregar más variables.

Se analiza la respuesta de minitab

Número de

variables

Cuáles variables

Page 33: Regresion Lineal Multiple

8/21/12  

33  

Caso de estudio Bienvenidos a la U

Regresión lineal múltiple Cátedra de Diseño de Experimentos Escuela de Ingeniería Industrial Universidad de Costa Rica