presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas

Grupo de estudio en Epidemiología

Escuela de Ciencias de la Salud- Universidad Pontificia Bolivariana

Medellín, Colombia

Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas

Diana Paola Cuesta CastroMD, MSc, candidata PhD Epidemiología

Disponible en “Temas de Epidemiología Clínica” http://dianacuesta.wordpress.com

La MBE y las guías para publicar los diferentes tipos deestudios han contribuido a evidenciar los erroresestadísticos.

Error 1. Informar mediciones con una

precisión innecesaria.

• Mayor comprensión si se usan dos dígitos.

• Algunas mediciones no necesitan tanta precisión en su reporte:

• Ejemplos:

No. de mujeres: 29 942 hasta 94 347

• 29 900 hasta 94 300

30 000 hasta 94 000

Promedio de edad 60.18 kg vs 60 kg.

Error en presentación

Modo correcto de presentarlo

p < 0,000000001 p < 0,001

p= ,000 p < 0,001

p= ,0000 p < 0,0001

p= 0,0109567 p=0,011 ó p=0,01

n.s (o peor: p=n.s) p=0,13 (por ejemplo)

p > 0,05 p=0,39 (por ejemplo)

p < 0,05 p=0,03

Martínez M, et al. Bioestadística Amigable. 2 ed. Diaz de Santos. 2006

Error 2. Transformar datos continuos a

categóricos sin explicar por qué o cómo.

• Explicar el criterio para establecer puntos de corte en la transformación de variables cuantitativas a categóricas

• Reducir el nivel de medición, reduce la variabilidad y precisión de las mediciones

Error 3. Falta información del cambio promedio

individual en las comparaciones pareadas

Error 4. Uso incorrecto de la estadística

descriptiva

• Promedio y desviación estándar son las medidas más usadas para datos continuos.

• Se usan si la variable distribuye normal, de lo contrario se debe utilizar la mediana y el rango o el rango intercuartílico. 68%

95%

99%

CMJ. 2004;45(4):361-370

• Solo medidas de tendencia central sin medidas de dispersión

Error 5. Uso del error estándar de la media

como una medida de estadística descriptiva.

Muestra

Error estándar de la media

Desviación estándar de la media

Uso como medida de dispersión de los datos de la muestra

- Es menor que la desviación estándar por loque se reporta para aparentar mas precisiónMedia ±1 EEM es IC68%- Preferible utilizar IC95%

Población

Inferencia estadística

• En una muestra de 100 hombres, el promedio del peso es 72kg D.E 8.

• Si el peso distribuye normal, 68% del peso de los hombres está entre 64-80 kg y 95% entre 56-88 kg.

Estimación puntual

Estimación por intervalos

Prueba de hipótesis

EE: DS/√n EE:8/ √100 EE:0.8• Si se tomaran repetidas muestras aleatorias

de la misma población de hombres, 68% de esas muestras se espera que tengan valores entre 71.2 – 72.8 kg (Media ±1 EE).

• Preferible IC95% Media ±2 EEMPeso promedio 72 kg IC95% 70.4-73.6

Error 6. Informar sólo el “valor p” para los

resultados.

• Cuando en los resultados solo se informa que hubosignificancia estadística (“El efecto del medicamento fueestadísticamente significativo”) o el valor p<0.05

▫ Cuál es el valor p? 0.049 – 0.001

▫ Cuál es el tamaño del efecto?

▫ Es importante clínicamente?

▫ Uso arbitrario del punto de corte 0.05

• Informar el valor p sin el intervalo de confianza no permiteconocer la precisión de la estimación (“el promedio de lapresión arterial sistólica en el grupo de tratamientodisminuyó de 110 a 92 mmHg, p=0.02)

• Los valores del IC no siempre son clínicamente importantes(“El medicamento redujo la presión arterial diastólica enpromedio 18 mmHg, de 110 a 92 mmHg, IC95% 2 a 34mmHg, p=0.02”)

Valores del IC clínicamente importantes

Probabilidad de que la intervención sea clínicamente efectiva

Si Si

No No

Algunos Muestra insuficiente para valorar el efecto

Reflexiones sobre las pruebas de hipótesis (PH)

• Están desarrolladas para el caso de que los datos procedan de

una muestra seleccionada aleatoriamente.

• Se basan en una suposición que raras veces se cumple en la

práctica: la hipótesis nula es cierta

• Ignoran el tamaño o magnitud del efecto y se centra en una

decisión dicotómica a favor o en contra de una hipótesis.

• Confusión de significancia clínica con estadística:

Un valor p no refleja en absoluto la magnitud de la diferencia que se

observa, sino la probabilidad de haber observado esa diferencia si en

realidad no hay ninguna.

Silva-Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud. Diaz de Santos1997Clark ML. Los valores P y los intervalos de confianza. Rev Panam Salud Publica.2004;15(5):293-6

Reflexiones sobre las pruebas de hipótesis

• Creencia de que un valor p mayor que α confirma que la

hipótesis nula es correcta, o que representa la probabilidad

de que lo sea.

• El no poder rechazar la hipótesis nula no equivale a poder

confirmarla.

• Dependen de un factor ajeno al problema de estudio: el tamaño de la muestra.

• La elección de trabajar con una o dos colas depende de la visión subjetiva del investigador.

Silva-Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud. Diaz de Santos1997Clark ML. Los valores P y los intervalos de confianza. Rev Panam Salud Publica.2004;15(5):293-6

Error 7. No confirmar el cumplimiento de los

supuestos de las pruebas estadísticas utilizadas.

• La aplicación de pruebas de hipótesis sin la verificación desupuestos puede dar resultados no precisos.

• Se debe incluir la información sobre la manera en que severificaron los supuestos de las pruebas utilizadas.

• Errores:

▫ Usar pruebas paramétricas cuando los datos nodistribuyen normal.

▫ Usar pruebas para análisis de grupos independientescuando realmente son grupos relacionados

Error 8. Utilizar un análisis de regresión lineal

sin haber demostrado que la relación es, de

hecho, lineal.

• Sin verificar los supuestoslos resultados pueden estarincorrectos.

• Supuesto de linealidad:gráficamente se verificacontrastando los residualesde los datos con la línea deregresión.

Error 9. Reporte de “missing data”.

• Considerar los siguientes aspectos cuando hayanresultados faltantes:

1. Naturaleza del missing data: outliers no incluidos en elanálisis? pérdida accidental de los datos? Fueronexcluidos algunos datos por no respaldar la hipótesis?

2. Generalización de los resultados: es el rango de valoresreal? Fue tan bajo los drop outs?

3. La calidad del estudio. Si no coinciden los totales, cuancuidadoso fue el autor?

• Para evaluar los missing data revise el flujograma de lospacientes que participaron en el estudio

http://www.consort-statement.org/

Error 9. Reporte de

“missing data”.




Error 10. No informar si se hicieron o cómo se

hicieron los ajustes para las pruebas de

hipótesis múltiples.

• Múltiples pruebas de hipótesis en un conjunto de datosincrementan el riesgo de encontrar diferencias solo porazar.

Motulsky H. Intuitive Biostatistics. New York, Oxford University Press. 1995

No. de Ho independientes

1 2 3 4 5 6 7 8 9 10 20 50

P de que uno o más valor

p<0.05 solo por azar

5% 10% 14% 19% 23% 26% 30% 34% 37% 40% 64% 92%

Ajuste del valor crítico de rechazo 0.0

5

0.0

25

3

0.0

17

0

0.0

12

7

0.0

10

2

0.0

08

5

0.0

07

3

0.0

06

4

0.0

05

7

0.0

05

1

0.0

02

6

0.0

01

0

• Ocurre cuando:

1. Se establece si los grupos de comparación tienen características basales similares (se espera que no hayan).

Predictors of 30-Day Mortality andHospital Costs in Patients WithVentilator-Associated PneumoniaAttributed to Potentially Antibiotic-Resistant Gram-Negative Bacteria

CHEST 2008; 134:281–287

• Ocurre cuando:

2. Realización de múltiples comparaciones por pares:

cuando en tres o más grupos de datos se realizan

comparaciones de dos en dos por separado.

3. Evaluar múltiples endpoints que están influenciados

por el mismo conjunto de variables explicativas

4. La realización de análisis secundarios de las

relaciones observadas durante el estudio, pero no

identificadas en el diseño original.

• Ocurre cuando:

6. La realización de análisis de subgrupos no planeados

en el estudio original.

7. Se hace múltiples análisis interinos con datos

acumulados (medición del efecto en diferentes

momentos).

8. Se comparan grupos de individuos en diferentes

momentos del tiempo.

Error 11. Presentación innecesaria de la

comparación estadística de las características

baslaes en el ensayo clínico aleatorio.

• Cualquier diferencia de las características basales entrelos grupos de un ensayo con asignación aleatoria se debeal azar y no indica al presencia de sesgo como si ocurre enotros tipos de estudio.

• Las diferencias observadas solo indican que deben serajustadas en el análisis estadístico de los resultados peroel valor p no debe ser reportado.

Declaración de Consort

Error 12. No se define “normal” o “anormal”

al informar resultados de pruebas diagnósticas.

Qué es normal en Medicina?

Diagnóstico Tratamiento Riesgo Estadística Percentiles Social

Sin relación clínica

Error 13. No se explica cómo fueron manejados

los resultados inciertos cuando se calculó la

sensibilidad y especificidad de una prueba

• No todas las pruebas diagnósticas proporcionan resultados claramente positivos o negativos.

• Se deben reportar el número de pacientes conresultados intermedios, indeterminado oininterpretables e

informar como se

manejaron en el

análisis

Error 14. Uso de tablas y figuras sólo para

“almacenar” los datos, en lugar de ayudar a los

lectores.

• Las tablas y figuras comunican información.

• Las tablas comunican mejor datos numéricos precisos.

• Los gráficos de puntos comunican patrones generalesde comparación

• Mapas comunican mejor las relaciones espaciales

Error 15. Uso de un diagrama o gráfico en el

que el mensaje visual no es compatible con el

mensaje de los datos del texto.

• Se recuerda mejor el mensaje de una imagen que el de los datos en que se basa. Debe existir entre ellos concordancia de la información .

• Atentos con los valores de inicio de los ejes porque se distorsiona la información.

INCORRECTO

Journal of Clinical Epidemiology. 2010;63:1045-1047

Escala Aritmética: incorrecta Escala Logarítmica: correcta

Error 16. Confundir las “unidades de

observación” al informar e interpretar los

resultados.

• La unidad de observación es la unidad de estudio.

• Diferenciar la unidad de estudio de los pacientesestudiados, a veces coinciden.

• La unidad de observación la define el objetivo delestudio.

Error 17. Interpretación de estudios con

resultados no significativos y de bajo poder

estadístico como “negativo”, cuando lo son, de

hecho, no concluyentes.

• Confusión de términos “negativo” y “no conluyente”como si fueran similares.

• En estudios con bajo poder los resultados observadosno son negativos sino no concluyentes porque elestudio es incapaz de detectar diferencias cuandorealmente existen.

• Sucede lo mismo con las pruebas de hipótesis en lacomparaciones basales de los grupos porque tiene bajopoder.

Error 18. No distinguir entre estudios

“pragmáticos”(efectividad) y “explicativos”

(eficacia) en el diseño e interpretación de

investigación biomédica.

Característica Explicativos Pragmáticos

Objetivo Comprender la enfermedad o procesos terapéuticos

Guiar la decisión clínica

Condiciones del estudio

Ideales o condiciones de laboratorio

Práctica clínica

Hallazgos Conocimiento biológico no generalizable a la práctica clínica

Afectados por factores no controlados

AspectoExplicativos o

EficaciaPragmáticos o

Efectividad

Pregunta Respuesta en circunstancias ideales

Respuesta en circunstanciasreales

Criterios de elegibilidad

Estrictos. Limitados a alto riesgo y alta adherencia

Todos los pacientes

Pacientes excluidos durante el estudio

Excluidos del análisis Incluidos en el análisis

Tratamiento Estricta vigilancia de la administración

De rutina

Intensidad del seguimiento

Alto número de visitas De rutina

Comparación entre los tipos de ensayos clínicos

Haynes B, Sackett D, Guyatt G, Tugwell P. Clinical Epidemiology: How to Do Clinical Practice Research. 3 edition

Aspecto Explicativos o EficaciaPragmáticos o

Efectividad

Compliance o adherencia

Monitoreo estricto, estrategiaspara mejorar adherencia

Poco o ningún monitoreo

Desenlaces Efectos adversos atribuidos al tratamiento

Todos los efectos negativos aun cuando no estén relacionados

Seguimiento Hasta que desarrolla el evento Hasta la muerte o finalizacióndel seguimiento, lo que ocurra primero

Eventosanalizados

Solo los que ocurren durante el tiempo en que el paciente recibe la terapia

Cualquiera que ocurra luego de la asignación aleatoria

Comparación entre los tipos de ensayos clínicos

Haynes B, Sackett D, Guyatt G, Tugwell P. Clinical Epidemiology: How to Do Clinical Practice Research. 3 edition

Error 19. No informar de los resultados en

unidades de utilidad clínica.

• Existen diversas maneras de presentar los resultados y cada una cierta información sobre la efectividad clínica.

Medidas Relativas Medidas Absolutas

Riesgo RelativoReducción o Incrementodel Riesgo Absoluto

Reducción o Incrementodel Riesgo Relativo

NNT o NNH

Error 20. Confundir la significación estadística y

la importancia clínica.

• Pequeñas diferencias entre grupos con muestras grandes pueden ser estadísticamente significativas pero no clínicamente importantes.

• Grandes diferencias en grupos con muestras pequeñas pero no significativas pueden ser clínicamente importantes.

www.dentalhypotheses.com

• Las pruebas de significación estadística no informa de la importancia de los resultados, tan sólo de la probabilidad de que dichos resultados sean atribuibles al azar (p < 0,05).

• Los intervalos de confianza ofrecen información sobre la importancia y precisión de los resultados.

• Cualquier diferencia en el tamaño del efecto, por pequeña que sea, puede alcanzar significación estadística si la n es grande.

Ochoa C. Evaluación de la importancia de los resultados clínicos: importancia clínica frente significación estadística. Evid Pediatr. 2010;6:40

Evaluación de la importancia de los resultados

clínicos: importancia clínica frente significación

estadística

• Perspectivas de la valoración de la importancia clínica de los resultados:

Paciente Clínico Investigador

Industria farmacéutica Agencias reguladoras

Instituciones de salud

Autoridades de salud pública

Evid Pediatr. 2010;6:40

No hay consenso sobre la definición de un resultadoclínicamente importante, podría ser:

o Variable de resultado válida y con sentido clínico.

o Valorado al menos por alguna de las partes implicadas en el proceso asistencial.

oQue justifique una modificación en el manejo del paciente.

oQue suponga un beneficio para el paciente.

oDesenlace duradero, fácil de medir, aceptable (por los pacientes) y coste-efectiva.


No hay consenso sobre la definición de un resultadoclínicamente importante, podría ser:

(CONT)

oQue haya alcanzado significación estadística en un estudio válido (ausencia de sesgos).

oDefinido por consenso de expertos.

o Adaptado a las circunstancias (diferente según la situación).

oQue dependa de la perspectiva desde la que se juzgue: clínicos, investigadores, pacientes, industria farmacéutica o agencias financiadoras.


• La valoración de la importancia clínica pueden ser tomada de los criterios de causalidad.

o Temporalidad

o Plausibilidad biológica

o Fuerza de asociación

o Consistencia

o Coherencia

oGradiente biológico


Proceso de valoración de la importancia clínica de los resultados de un estudio

Cuantitativa Cualitativa

ComparativaBeneficio

Riesgo/costes

Tamaño del efectoMedidas de frecuencia

Medidas de impacto


Repercusión sobre la toma de decisiones

Otros estudios con las mismas o distintas medidas de efecto

Ochoa C. Evaluación de la importancia de los resultados clínicos: importancia clínica frente significación estadística. Evid Pediatr. 2010;6:40

Tipos de error Fuentes de error

• Sesgo

• Imprecisión

• Muestreo

• Mediciones

• Estimación

• Pruebas de hipótesis

• Reporte

Categoría I. Sampling Bias

• La participación voluntaria de los sujetos de un estudio invariablemente contiene un sesgo de selección porque nunca existe una verdadera selección aleatoria.

• La inclusión de muestras de diferentes poblaciones requiere de un muestreo estratificado.

• La selección de controles en estudios de intervención puede inducir un sesgo de muestreo: inadecuada asignación aleatoria, implementación no concurrente de las intervenciones en estudio.

• Se afectan las medidas de tendencia central y de dispersión de los resultados

Cómo se minimiza el sesgo de selección?

• Definición específica de la población de interés: criterios de elegibilidad explícitos.

• Ajustes de la asignación aleatoria:

o Fija: simple, bloques, estratificada.

oDinámica

o Adaptativa

• Ajustar los resultados del estudio en caso de imbalance de las características basales de los grupos.

Categoría II. Sampling Imprecision

• El uso de muestras pequeñas aumenta la imprecisión, entonces por qué se usan?

• El error estándar depende inversamente del tamaño de la muestra pero no se relaciona linealmente.

• Ignorar la estructura de la población en el muestreo aumenta la imprecisión de los resultados

Categoría III. Measurement Bias

• Informar detalladamente los métodos de recolección de la información para brindar reproducibilidad.

• Los cambios en algunos procesos durante la ejecución del estudio puede ser una fuente de sesgo y hay que identificarlos.

Categoría IV. Measurement Imprecision

• Medir el coeficiente de variación como medida de imprecisión (CV=DE/media) cuando se hacen mediciones repetidas de un mismo espécimen en un mismo tiempo (error técnico).

Categoría V. Estimation Bias

• Error cuando se estima el parámetro con la información disponible, sigue una tendencia consistente.

• No esta relacionado con prejuicios derivados de la recogida de datos per se.

• Missing data: hubo?, informativos y no informativos

• En ensayos clínicos que comparan grupos de tto y uno de ellos es coadyuvante, no se puede estimar el efecto aislado del coadyuvante porque su efecto ocurre en presencia del ttoestándar:

▫ Sin tratamiento

▫ Tto estándar

▫ Tto estándar + coadyuvante

Categoría VI. Estimation Imprecision

• Error en la estimación del parámetro, sigue una tendencia en cualquier sentido, es llamado “ruido”.

• No confundir imprecisión adquirida por el proceso de muestreo con la imprecisión adquirida por la obtención de la estimación.

• Muestras pequeñas son mas imprecisas.

• La estructura de los datos afecta la precisión de los métodos utilizados en el análisis: cuando hay mediciones repetidas en un sujeto y se toma el valor como un promedio de ellas se aumenta la variabilidad

Categoría VII. Bias in hypothesis testing

Considerar los tipos de errores en la estimación porpruebas de hipótesis, principalmente el error tipo I

http://www.unc.edu/courses/2003fall/biol/145/001/docs/lectures/Sep29

Prueba de hipótesis de una cola

Zona deNo rechazo

Zona deNo rechazo

• Ofrece mayor potencia estadística

que la de dos colas.

• Usa mitad de la muestra que la de

dos colas.

• Uso en:

o Es imposible que se de una diferencia

de promedio en una dirección

o Bajo ninguna circunstancia es de interés

una diferencia en una dirección.

• Debe justificarse su elección en la

prueba

• Las múltiple pruebas de hipótesis incrementa el error

tipo I.

• Ajustar el nivel de significación cuando se realizan

pruebas múltiples.

• Verificar supuestos de las pruebas que se aplican.

• Idealmente ≥30 sujetos para verificar supuestos.

Categoría VIII. Imprecision in hypothesis testing

• Se mide con el error tipo II.

• El error tipo II se incrementa en las muestras pequeñas,

errores técnicos grandes y estimaciones imprecisas.

• Ocurre cuando se comparan grupos de diferentes tamaños

Categoría IX. Reporting Bias

• Contribución al sesgo de publicación.• Diferenciar las diferencias estadísticamente

significativas de las diferencias biológicasimportantes.

• Diferenciar estudios con resultados negativos de losestudios con resultados no concluyentes

Categoría X. Reporting Imprecision

• El uso de ± para indicar variación debe informarse sies la desviación estándar o el error estándar

• Informar parcialmente el valor p y la manera en quése obtuvo.

presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas

Health & Medicine