regresión logistica i

19
 UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE MEDICINA HUMANA Mg. Ysela Agüero P. PROGRAMA DE SEGUNDA ESPECIALIDAD PROFESIONAL EN EPIDEMIOLOGÍA DE CAMPO - PREC ANALISIS DE REGRESIÓN ANALISIS DE REGRESIÓN LOGISTICA BINARIA LOGISTICA BINARIA

Upload: alvaro-terrazas-pelaez

Post on 20-Jul-2015

295 views

Category:

Documents


0 download

DESCRIPTION

parte 1 de 3 clases de regresión logistica

TRANSCRIPT

Page 1: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 1/19

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE MEDICINA HUMANA

Mg. Ysela Agüero P.

PROGRAMA DE SEGUNDA ESPECIALIDAD PROFESIONAL ENEPIDEMIOLOGÍA DE CAMPO - PREC 

ANALISIS DE REGRESIÓNANALISIS DE REGRESIÓNLOGISTICA BINARIALOGISTICA BINARIA

Page 2: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 2/19

Los métodos de regresión se han convertido en parte integrante de muchos

análisis de datos relacionados con la descripción de la relación causal entreuna variable respuesta (variable dependiente, efecto, etc.) y una o más

variables predictivas (variables regresoras, variables independientes,

covariables, factores, etc.). Particularmente, el análisis de regresión lineal se

utiliza para modelar la relación causal entre una variable respuesta continua y

un conjunto de variables explicativas continuas, las cuales se relacionanlinealmente con la respuesta. Pero a menudo ocurre que, la variable respuesta

(variable dependiente, efecto, etc.) no es continua sino más bien categórica y

toma sólo dos (binaria) o más (multinomial) posibles valores.

En estas clases se pretende introducir los conceptos relacionados con el

manejo de los modelos de regresión logística incondicional, es decir, modelos basados en observaciones independientes. Existen modificaciones del modelo

incondicional que nos permiten manejar datos dependientes, como ocurre para

los estudios caso-control pareados que también son tratados en la literatura

referida a la regresión logística.

ANALISIS DE REGRESION LOGISTICA

Page 3: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 3/19

Antes de comenzar el estudio del modelo de regresión logística es importante

entender que el objetivo de un análisis usando los modelos de regresión, en

general, es el mismo que cuando se usa cualquier otra técnica de construcciónde modelos usada en estadística, esto es,

ANALISIS DE REGRESION LOGISTICA

Encontrar el mejor ajuste y el más parsimonioso, pero que aEncontrar el mejor ajuste y el más parsimonioso, pero que a

la vez, sea un modelo biológicamente razonable para explicar la vez, sea un modelo biológicamente razonable para explicar 

la relación entre un efecto (variable respuesta) y un conjunto dela relación entre un efecto (variable respuesta) y un conjunto de

factores(variables explicativasfactores(variables explicativas ). ).

Recordemos que al construir modelos se tiene que seguir una serie de pasos:

•Identificación y formular el modelo ideal (teórico).

•Obtención de los datos para contrastarlos con el modelo

• Estimación de parámetros•Validación del modelo

•Uso del modelo (prediccion, estimación, clasificación, etc.)

Si el modelo no es válido volver a la etapa de identificación proponer un nuevo

 posible modelo.

Page 4: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 4/19

La elección del modelo adecuado en la etapa de identificación dependerá de

los objetivos de la investigación, de la experiencia del investigador en el

tema en cuestión, de la cantidad de posibles modelos que conozca, del tipo

de datos con los que cuenta, etc.

Por ejemplo, si la variable respuesta es binaria (dicotómica) un posible

modelo a elegirse en la etapa de identificación será el modelo logístico.

Cada una de las etapas en el análisis de datos tiene sus particularidades

dependiendo del modelo elegido en la etapa de identificación. Pero, el

análisis de regresión logística y el de regresión lineal tienen similitudes y

diferencias las cuales intentaremos ilustrar con el ejemplo siguiente.

ANALISIS DE REGRESION LOGISTICA

Page 5: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 5/19

Ejemplo. Asociación entre la enfermedad cardiovascular y la edad

Se realiza un estudio con una muestra aleatoria de tamaño 100 de una población de individuos adultos. El objetivo es evaluar la asociación entre la

 presencia de enfermedad coronaria (EC) y la edad. La tabla registra la

identificación (ID), edad, y enfermedad coronaria (EC = 1: enfermedad

 presente, EC = 0 : no presenta evidencia de enfermedad).

ID EDAD EC1 20 0

2 23 0

3 24 0

:: :: ::

::: ::: :::

98 64 1

99 65 1

100 69 1

Datos

Edad

77777777777777

   E  n   f  e  r  m  e   d  a   d   C  o  r  o  n  a  r   i  a

.77

.77

.7

.7

.7

.7

.77

-.7

Diagrama de dispersión

Edad vs EC

ANALISIS DE REGRESION LOGISTICA

Page 6: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 6/19

El gráfico anterior no permite visualizar claramente la distribución de la

enfermedad cardiovascular en las distintas edades , por lo que se construyó una

tabla de contingencia entre las edades agrupadas y la presencia o ausencia de la

enfermedad. La última columna de la tabla contiene las prevalencias de ECV

Grupo deedad

Númerode

sujetos

Enfermedadcoronaria

Prevalenciade

enfermedadAusente Presente

20-29 10 9 1 0.1030-34 15 13 2 0.1335-39 12 9 3 0.2540-44 15 10 5 0.3345-49 13 7 6 0.4650-54 8 3 5 0.63

55-59 17 4 13 0.7660-69 10 2 8 0.80

Tabla. Enfermedad cardiovascular (ECV) y grupo de edad

ANALISIS DE REGRESION LOGISTICA

Ejemplo. Asociación entre la enfermedad cardiovascular y la edad

Page 7: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 7/19

7

,00

,00

,00

,00

7

-0000 -7777 -0000 -7777 -7777 -7777 -7777 -7777

Grupo de edad

   P  r  e  v  a   l  e  n  c   i  a

   d  e

   E   C

Observar que la relación

entre la prevalencia deEC y la edad no es lineal,

sino más bien presenta la

forma de una curva en

forma de “ S” (curva

sigmoidea).

Figura. Prevalencia de EC

y edad.

ANALISIS DE REGRESION LOGISTICA

Ejemplo. Asociación entre la enfermedad cardiovascular y la edad

Page 8: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 8/19

ECV presente7

ECV ausente7

=

Definamos la variable respuesta

como: La variable independiente es

continua 

X : Edad

( )7 7

7 7/ ( )

7

 X 

 X 

e E Y X x x

e

β β 

β β π 

+

+= = =+

Consideremos un modelo logístico

Este modelo constituye un mayor acercamiento a la realidad biológica, pues,

tiene más sentido pensar que la influencia de un factor de riesgo sobre la

 probabilidad de tener una enfermedad se asemeja más a una curva de tipo

sigmoidea que a una recta.

ANALISIS DE REGRESION LOGISTICA

Ejemplo. Asociación entre la enfermedad cardiovascular y la edad

Page 9: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 9/19

Cuando una variable explicativa es numérica se puede incorporar en elmodelo tal cual.

Ejemplo :

Para introducir las variables explicativas : “Número de cigarros que fuma ”

y “nivel de colesterol en mg/dl” en un modelo de predicción deenfermedad coronaria, definimos :

Variables explicativas Numéricas

X1 : Número de cigarros que fuma;

X2 : Nivel de colesterol en mg/dl

ANALISIS DE REGRESION LOGISTICA

Page 10: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 10/19

Variables explicativas categóricas

ANALISIS DE REGRESION LOGISTICA

Cuando una variable explicativa es categórica se transforma definiendo

variables artificiales.

Por ejemplo, en el modelo de predicción de enfermedad coronaria, se desea

introducir las variables explicativas :

X1 : Hábito de fumar 

X2 : Nivel de colesterol

=fuma  No7

Fuma7

7 X 7

Elevado7

 Normal7 X 

=

Page 11: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 11/19

Cuando una variable explicativa es categórica con más de dos categorías se

transforma definiendo variables artificiales.

 Si el número de categorías es L se fija una de ellas como referencia y se

define L-1 variables artificiales

Ejemplo : Masa corporal (peso/talla2

) medido con tres categorías (L=3).

7

Sobrepeso7

 Normal7 X 

=

 Normal

Masa corporal= Sobrepeso

Obesidad

7

Obesidad7

 Normal7 X 

=

Se fijará como referencia la categoría “normal” y se construirán 2 variablesartificiales

ANALISIS DE REGRESION LOGISTICA

Variables explicativas categóricas politómicas

Page 12: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 12/19

Modelo de regresión logísticaModelo de regresión logísticamúltiplemúltiple

El modelo supone que :

1. Las observaciones de la variable respuesta (Yi) : i=1,2,…,n) son

independientes entre si.

2. La distribución de la respuesta es Yi∼ B(πi) ; para i=1,2,...,n

(Bernoulli)

3. Las variables explicativas (X1, X2,…,XK ) son independientes entre si.

4. V(Yi) = πi(1- π i); i=1,2,...,n (Varianzas no son constantes.

7 77

7 77

...

7 7 ...( / ,.... ) ( ) 7

k k 

k k 

 x x

k k  x x

e E Y X x X x X 

e

β β β 

β β β π 

+ + +

+ + += = = = +

ANALISIS DE REGRESION LOGISTICA

El modelo de regresión logística puede extenderse para k variables explicativas Xk 

y se denomina modelo de regresión logística múltiple.

Page 13: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 13/19

Siguiendo la lógica del modelo de regresión lineal, la relación entre el predictor 

y la respuesta debe ser lineal, por lo que se necesita una transformación que

 permita expresar el modelo como una relación lineal entre los dos miembros

de la igualdad.

Se propone una transformación denominada, “transformación logit” .

7 7 7

( )logit( ( )) ln ...

( )7

π π β β β  

π 

 = = + + +  −  

k k 

 X  X x x

 X 

 ANALISIS DE REGRESION LOGISTICAModelo de regresión logísticaModelo de regresión logísticamúltiplemúltiple

Esta transformación consiste en dividir la proporción de éxitos, π(x), que puede

ser una prevalencia, entre uno menos la proporción de éxitos, 1- π(x) y

aplicarle el logaritmo a este cociente.

Page 14: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 14/19

Se podrían utilizar métodos numéricos de optimización para calcular los

estimadores del vector de parámetros β   por el método de máxima

verosimilitud).

Dado que el modelo de regresión logística es un miembro de la familia de

modelos lineales generalizados, la estimación de los parámetros se realizará

 por el método de mínimos cuadrados , iterativamente reponderados.

El procedimiento más utilizado para realizar la estimación es el método

score de Fisher el cual se basa en la función score obtenida a partir de la

función de verosimilitud ( Nelder y Wedderburn (1972)).

Estimación de parámetrosANALISIS DE REGRESION LOGISTICA

Page 15: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 15/19

Estimación de parámetrosANALISIS DE REGRESION LOGISTICA

Ejemplo. Asociación entre la enfermedad cardiovascular y la edad

El modelo ajustado es:

7 7

ˆ( ) ˆ ˆln . .77 7 7 77 7 7ˆ( )7

π β β 

π 

 = + = − +  −  

 x x ed a d 

 x

Aplicándole la transformación inversa

. . edad7777 7777

. . edad7777 7777ˆ( )

7π 

− +

− +=+e

 xe

Variables en la ecuación

,777 ,777 ,0000

- ,7777 ,777 ,777

edad

Constante

Paso

7a

B Sig. Exp(B)

Variable(s) introducida(s) en el paso : edad.7a.

Los coeficientes del modelo no

tienen una interpretación directa

Page 16: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 16/19

Para facilitar la interpretación de los coeficientes del modelo consideremos unmodelo con una sola variable explicativa numérica:

7

ˆ( ) ˆ ˆˆln ( )ˆ( )7

π  η β β π 

 = = +  −  i o

 x x x

 x

El valor ajustado para una edad x +1 valor de será :

7

ˆ( )7 ˆ ˆˆln ( ) ( )7ˆ( )7 7

π η β β 

π 

 += = + +  − +  

i i o

 x x x

 x

Ventaja (Odds)para x

Ventaja (Odds)para (x+1)

ANALISIS DE REGRESION LOGISTICAInterpretación de los coeficientes estimados

El valor estimado para una edad x será :

Page 17: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 17/19

La diferencia de ventajas (odds)

Aplicando el antilogaritmo

7

ˆˆ ˆ( ) ( ) ln(Ventaja( ) ln(Ventaja( )7 7η η β + − = + − = x x x x

7

Ventaja( )7 ˆln Ventaja( ) β 

 +

= =    

 x

 x

7ˆVentaja( ) ( )7 7

Ventaja( ) ( )

β + += = =

 Estimado

 x Odds xOR e

 x Odds x

El OR se puede interpretar como el incremento en la “chance” de tener el

evento dado que un individuo tiene un valor de la variable x+1 comparado con

la chance de un individuo que tiene un valor x.

ANALISIS DE REGRESION LOGISTICA

Interpretación de los coeficientes estimados

Page 18: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 18/19

Ejemplo

Aplicando el antilogaritmo

7

ˆˆ ˆ( ) ( ) ln(Ventaja( ) ln(Ventaja( )7 7η η β + − = + − = x x x x

7

Ventaja( )7 ˆln Ventaja( ) β 

 +

= =    

 x

 x

7ˆVentaja( ) ( )7 7

Ventaja( ) ( )

β + += = =

 Estimado

 x Odds xOR e

 x Odds x

El OR se puede interpretar como el incremento en la “chance” de tener el

evento dado que un individuo tiene un valor de la variable x+1 comparado con

la chance de un individuo que tiene un valor x.

ANALISIS DE REGRESION LOGISTICA

Interpretación de los coeficientes estimados

Page 19: Regresión logistica I

5/17/2018 Regresi n logistica I - slidepdf.com

http://slidepdf.com/reader/full/regresion-logistica-i 19/19

Ejemplo:Ejemplo:Asociación entre la enfermedadAsociación entre la enfermedad

cardiovascular y la edadcardiovascular y la edadLa ecuación ajustada es:

. .7777 7777

. .7777 7777ˆ( )

7π 

− +

− +=+

 E da d 

 E da d 

e x

e

.7777Ventaja( ) ( )7 7.0000

Ventaja( ) ( )

+ += = = =

 Estimado

 x Odds xOR e

 x Odds x

El OR estimado indica que una persona con (x+1) años deedad tiene 1.117 veces más “chance” (posibilidad o ventaja)de presentar enfermedad coronaria s comparado con otrapersona con edad x.

O, por cada año adicional en la edad de las personas , el

“riesgo” estimado de tener enfermedad coronaria es 1.117

ANALISIS DE REGRESION LOGISTICA

Interpretación de los coeficientes estimados

Calculamos la razón de ventajas