5a practica regresión logística.doc

11
Practica de Ordenador 5. Regresión Logística. Evaluación de la confusión. En el libro escrito por Hosmer and Lemeshow (2000), se recogen los datos sobre el peso de recién nacidos y diferentes características de las madres. El estudio tiene diseño casos-controles (cc). Los datos se encuentran en el fichero de Stata en Egela. Con los datos suministrados, se trata de conocer si la exposición del feto a diferentes exposiciones pudiera estar relacionada con el nacimiento de un/a niño/a con bajo peso. Realizar las siguientes tareas: a. Listar el contenido del fichero de datos (codebook, compact). Identificar cada variable y comprender el tipo de variable y la información que recoge. b. Definir qué variables podrían ser factores de riesgo en relación a bajo peso del Recién Nacido. c. Formular las posibles hipótesis de interés en relación con el bajo peso del Recién Nacido. MODELO DE ESTIMACIÓN mediante regresión logística. -Variables de exposición: TABACO, RAZA, HIPERTENSIÓN y UTERO IRRITADO -Variable desenlace: BAJO PESO Queremos estimar la relación entre el bajo peso con las variables de exposición. Comparamos siempre el OR, el bruto con el ajustado.

Upload: epiaprobada

Post on 30-Jan-2016

2 views

Category:

Documents


0 download

DESCRIPTION

asdf

TRANSCRIPT

Page 1: 5a Practica Regresión Logística.doc

Practica de Ordenador 5. Regresión Logística.

Evaluación de la confusión. En el libro escrito por Hosmer and Lemeshow (2000), se recogen los datos sobre el peso de recién nacidos y diferentes características de las madres. El estudio tiene diseño casos-controles (cc). Los datos se encuentran en el fichero de Stata en Egela. Con los datos suministrados, se trata de conocer si la exposición del feto a diferentes exposiciones pudiera estar relacionada con el nacimiento de un/a niño/a con bajo peso. Realizar las siguientes tareas:

a. Listar el contenido del fichero de datos (codebook, compact). Identificar cada variable y comprender el tipo de variable y la información que recoge.

b. Definir qué variables podrían ser factores de riesgo en relación a bajo peso del Recién Nacido.

c. Formular las posibles hipótesis de interés en relación con el bajo peso del Recién Nacido.

MODELO DE ESTIMACIÓN mediante regresión logística.

-Variables de exposición: TABACO, RAZA, HIPERTENSIÓN y UTERO IRRITADO-Variable desenlace: BAJO PESO

Queremos estimar la relación entre el bajo peso con las variables de exposición. Comparamos siempre el OR, el bruto con el ajustado.

Page 2: 5a Practica Regresión Logística.doc

_cons .402439 .0829631 -4.42 0.000 .2686731 .6028038 fumadora 2 .6235108 2.22 0.026 1.085584 3.684654 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -119.79108 Pseudo R2 = 0.0203 Prob > chi2 = 0.0258 LR chi2(1) = 4.97Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer fumadora

El fumar es un factor de riesgo

Page 3: 5a Practica Regresión Logística.doc

_cons .1489715 .0542547 -5.23 0.000 .0729625 .3041633 3 3.17206 1.292047 2.83 0.005 1.427674 7.047803 2 10.18889 5.397147 4.38 0.000 3.60776 28.77504 raza fumadora 3.34526 1.284297 3.15 0.002 1.576306 7.09936 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -107.79163 Pseudo R2 = 0.1184 Prob > chi2 = 0.0000 LR chi2(3) = 28.97Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer fumadora i.raza

Queremos saber si hay una diferencia del 10% entre los ODS RATIO. Se ha hecho un ODDS ratio ajustado por raza. Para saber si hay diferencia del 10% podemos poner en comandos: dis(ajustado/bruto)-1 x100

Como en nuestro caso hay una diferencia mayor del 10% nos quedamos con el ODDS ratio ajustado.En la raza, el punto de referencia es el punto 1, es decir, comparamos las otras razas con la raza blanca.

1.-VARIABLE DE EXPOSICIÓN: TABACO (SI: 1 NO: 0)

a.- Estimar la relación entre fumar y bajo peso.b.- La variable “raza” podría confundir la relación entre fumar y bajo peso. Por lo tanto, antes de nada, estima la relación entre “raza” y bajo peso.c.- ¿La variable “raza” es una variable confusora? d.- Estima la relación entre fumar y bajo peso ajustado por raza ¿Qué OR utilizaremos el OR crudo o el ajustado por raza?e.- ¿Fumar es un factor de riesgo en relación con bajo peso?

2.-VARIABLE DE EXPOSICIÓN: HIPERTENSIÓN (SI: 1; NO: 0)

a.- Estimar la relación entre hipertensa y bajo peso. (OR bruto)

_cons .4871795 .0786925 -4.45 0.000 .3549746 .6686221 hipertensa 3.078947 1.697248 2.04 0.041 1.045162 9.070286 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -120.14252 Pseudo R2 = 0.0174 Prob > chi2 = 0.0389 LR chi2(1) = 4.26Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer hipertensa

Ser hipertensa es un factor de riesgo

b.- Posibles variables de confusión: Hábito tabáquico y raza. Estima la relación entre hipertensión y bajo peso ajustado por cada uno de los posibles factores confusores. (Estimar OR ajustado por raza; OR ajustado por hábito tabáquico y OR ajustado por hábito tabáquico y raza)

Page 4: 5a Practica Regresión Logística.doc

_cons .3737578 .0792883 -4.64 0.000 .2466141 .5664515 fumadora 1.925011 .6072205 2.08 0.038 1.037367 3.572185 hipertensa 2.859738 1.597951 1.88 0.060 .956524 8.549813 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -117.9834 Pseudo R2 = 0.0351 Prob > chi2 = 0.0137 LR chi2(2) = 8.58Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer hipertensa fumadora

_cons .2787491 .0702521 -5.07 0.000 .1700938 .4568132 3 1.982555 .7011411 1.94 0.053 .9912734 3.965128 2 7.259918 3.585486 4.01 0.000 2.757689 19.11253 raza hipertensa 3.273974 1.908107 2.03 0.042 1.044686 10.26041 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -111.06273 Pseudo R2 = 0.0917 Prob > chi2 = 0.0001 LR chi2(3) = 22.42Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer hipertensa i.raza

Page 5: 5a Practica Regresión Logística.doc

_cons .1343492 .0505045 -5.34 0.000 .064306 .2806847 fumadora 3.256523 1.262096 3.05 0.002 1.523572 6.960576 3 3.296978 1.359742 2.89 0.004 1.469139 7.398933 2 10.24847 5.478662 4.35 0.000 3.594356 29.22115 raza hipertensa 2.92461 1.698614 1.85 0.065 .9368931 9.129478 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -106.05461 Pseudo R2 = 0.1327 Prob > chi2 = 0.0000 LR chi2(4) = 32.44Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer hipertensa i.raza fumadora

OR CRUDO OR ajustado TABACO

OR ajustado RAZA OR ajustado TABACO Y RAZA

3.078 (1.05-9.07) 2.86 (0.96-8.55) 3.27 (1.04-10.26) 2.92 (0.94-9.13)

Luego hay que compara los OR, ver si la diferencia entre el OR crudo y las ajustadas es mayor al 10%. Entre tabaco y raza no hay diferencia mayor del 10% por lo que nos quedamos con el OR crudo y sabemos que ser hipertenso es un factor de riesgo, pues el intervalo de confianza es mayor a 1. Tabaco y raza no son factores confusores.

c.- ¿Cuál es el OR que mejor explica la relación entre hipertensión y bajo peso? OR BRUTO

3.- VARIABLE DE EXPOSICIÓN: ÚTERO IRRITADO. (SI: 1; NO: 0)

a.- Evaluar si tiene útero irritado es un factor de riesgo. (OR bruto)

Page 6: 5a Practica Regresión Logística.doc

_cons .4495413 .0773191 -4.65 0.000 .3208978 .6297562 utero_irritable 2.701166 1.079908 2.49 0.013 1.233806 5.913653 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -119.17608 Pseudo R2 = 0.0253 Prob > chi2 = 0.0128 LR chi2(1) = 6.20Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer utero_irritable

b.- Posibles factores de confusión: raza, fumadora e hipertensa. Evalúalos.

_cons .2578549 .0666776 -5.24 0.000 .1553341 .4280396 3 1.796095 .6397119 1.64 0.100 .8936316 3.609942 2 7.880038 3.913838 4.16 0.000 2.97684 20.85936 raza utero_irritable 3.074031 1.288042 2.68 0.007 1.352223 6.988243 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -109.56521 Pseudo R2 = 0.1039 Prob > chi2 = 0.0000 LR chi2(3) = 25.42Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer utero_irritable i.raza

_cons .341383 .0759191 -4.83 0.000 .2207729 .5278833 fumadora 1.960846 .6215602 2.12 0.034 1.053476 3.649742 utero_irritable 2.640255 1.069805 2.40 0.017 1.193294 5.841766 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -116.91191 Pseudo R2 = 0.0439 Prob > chi2 = 0.0047 LR chi2(2) = 10.72Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer utero_irritable fumadora

_cons .4020434 .07347 -4.99 0.000 .2810108 .5752052 hipertensa 3.307978 1.851111 2.14 0.033 1.104686 9.90573 utero_irritable 2.824495 1.14289 2.57 0.010 1.277952 6.242619 bajo_peso_al_nacer Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -116.83849 Pseudo R2 = 0.0445 Prob > chi2 = 0.0044 LR chi2(2) = 10.87Logistic regression Number of obs = 189

. logistic bajo_peso_al_nacer utero_irritable hipertensa

OR CRUDO OR AJUSTADO RAZA OR AJUSTADO FUMADORA OR AJUSTADO HIPERTENSION

2.7 (1.23-5.91) 3.07 (1.35-6.98) 2.64 (1.19-5.84) 2.82 (1.27-6.24)

Page 7: 5a Practica Regresión Logística.doc

La diferencia entre OR de Raza y el OR es mayor del 10% por lo que es una variable confusora. Me quedaría con el OR ajustado por raza. Si hubiese 2 variables confusoras, tendría que hacer el mismo modelo pero metiendo las 2 variables. Si es una variable confusora también esta relacionado con el bajo peso.

c.- Estima la relación entre útero irritado y bajo peso ajustado por cada uno de los posibles factores confusores. ¿Qué OR utilizaremos el OR crudo o el ajustado?

Ajustado por raza

MODELO DE PREDICCIÓN mediante regresión logística.

Introduce en el modelo todas aquellas variables que son factores de riesgo y que ayuden a explicar la probabilidad de tener bajo peso al nacer.

_cons -2.176949 .3923213 -5.55 0.000 -2.945884 -1.408013 3 1.130233 .4218188 2.68 0.007 .3034839 1.956983 2 2.374927 .5359718 4.43 0.000 1.324442 3.425412 raza utero_irritable 1.071121 .4303659 2.49 0.013 .2276191 1.914622 fumadora 1.126299 .3935269 2.86 0.004 .3550001 1.897597 hipertensa 1.141545 .5908673 1.93 0.053 -.0165339 2.299623 bajo_peso_al_nacer Coef. Std. Err. z P>|z| [95% Conf. Interval]

Log likelihood = -102.93082 Pseudo R2 = 0.1582 Prob > chi2 = 0.0000 LR chi2(5) = 38.69Logistic regression Number of obs = 189

Iteration 4: log likelihood = -102.93082 Iteration 3: log likelihood = -102.93082 Iteration 2: log likelihood = -102.93137 Iteration 1: log likelihood = -103.24593 Iteration 0: log likelihood = -122.2743

. logit bajo_peso_al_nacer hipertensa fumadora utero_irritable i.raza

Page 8: 5a Practica Regresión Logística.doc

1.-Si cogiésemos una mujer embarazada al azar y tuviese las siguientes características:a.- Hipertensa (1), fumadora (1), raza: blanca (1) y con útero irritado (1)

¿Cuál sería la probabilidad de que su hij@ tenga bajo peso?

El coeficiente son las betas, utilizando la ecuación del PPT. En la raza, lo que hace stata lo hace frente a 0 (raza blanca) y los otros 2 van a tener la categoría 1.Tras hacer la formula nos da 0.76, lo que es igual a que el hijo tiene una probabilidad del 76% de tener bajo peso.

2.-Si cogiésemos otra mujer embarazada al azar y tuviese las siguientes características:b.- NO Hipertensa (0), NO fumadora (0), raza: negra (2) y SIN útero irritado (0)

Tras hacer la formula nos da: 0.547, lo que es igual a que el hijo tiene una probabilidad del 55% de tener bajo peso

EL EXPONENCIAL DE BETA ES EL ODDS RATIO

¿Cuál sería la probabilidad de que su hij@ tenga bajo peso?

Page 9: 5a Practica Regresión Logística.doc
Page 10: 5a Practica Regresión Logística.doc