presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas
DESCRIPTION
Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicasTRANSCRIPT
Grupo de estudio en Epidemiología
Escuela de Ciencias de la Salud- Universidad Pontificia Bolivariana
Medellín, Colombia
Presentación de artículos sobre errores estadísticos frecuentes en publicaciones biomédicas
Diana Paola Cuesta CastroMD, MSc, candidata PhD Epidemiología
Disponible en “Temas de Epidemiología Clínica” http://dianacuesta.wordpress.com
La MBE y las guías para publicar los diferentes tipos deestudios han contribuido a evidenciar los erroresestadísticos.
Error 1. Informar mediciones con una
precisión innecesaria.
• Mayor comprensión si se usan dos dígitos.
• Algunas mediciones no necesitan tanta precisión en su reporte:
• Ejemplos:
No. de mujeres: 29 942 hasta 94 347
• 29 900 hasta 94 300
30 000 hasta 94 000
Promedio de edad 60.18 kg vs 60 kg.
Error en presentación
Modo correcto de presentarlo
p < 0,000000001 p < 0,001
p= ,000 p < 0,001
p= ,0000 p < 0,0001
p= 0,0109567 p=0,011 ó p=0,01
n.s (o peor: p=n.s) p=0,13 (por ejemplo)
p > 0,05 p=0,39 (por ejemplo)
p < 0,05 p=0,03
Martínez M, et al. Bioestadística Amigable. 2 ed. Diaz de Santos. 2006
Error 2. Transformar datos continuos a
categóricos sin explicar por qué o cómo.
• Explicar el criterio para establecer puntos de corte en la transformación de variables cuantitativas a categóricas
• Reducir el nivel de medición, reduce la variabilidad y precisión de las mediciones
Error 3. Falta información del cambio promedio
individual en las comparaciones pareadas
Error 4. Uso incorrecto de la estadística
descriptiva
• Promedio y desviación estándar son las medidas más usadas para datos continuos.
• Se usan si la variable distribuye normal, de lo contrario se debe utilizar la mediana y el rango o el rango intercuartílico. 68%
95%
99%
CMJ. 2004;45(4):361-370
• Solo medidas de tendencia central sin medidas de dispersión
Error 5. Uso del error estándar de la media
como una medida de estadística descriptiva.
Muestra
Error estándar de la media
Desviación estándar de la media
Uso como medida de dispersión de los datos de la muestra
- Es menor que la desviación estándar por loque se reporta para aparentar mas precisiónMedia ±1 EEM es IC68%- Preferible utilizar IC95%
Población
Inferencia estadística
• En una muestra de 100 hombres, el promedio del peso es 72kg D.E 8.
• Si el peso distribuye normal, 68% del peso de los hombres está entre 64-80 kg y 95% entre 56-88 kg.
Estimación puntual
Estimación por intervalos
Prueba de hipótesis
EE: DS/√n EE:8/ √100 EE:0.8• Si se tomaran repetidas muestras aleatorias
de la misma población de hombres, 68% de esas muestras se espera que tengan valores entre 71.2 – 72.8 kg (Media ±1 EE).
• Preferible IC95% Media ±2 EEMPeso promedio 72 kg IC95% 70.4-73.6
Error 6. Informar sólo el “valor p” para los
resultados.
• Cuando en los resultados solo se informa que hubosignificancia estadística (“El efecto del medicamento fueestadísticamente significativo”) o el valor p<0.05
▫ Cuál es el valor p? 0.049 – 0.001
▫ Cuál es el tamaño del efecto?
▫ Es importante clínicamente?
▫ Uso arbitrario del punto de corte 0.05
• Informar el valor p sin el intervalo de confianza no permiteconocer la precisión de la estimación (“el promedio de lapresión arterial sistólica en el grupo de tratamientodisminuyó de 110 a 92 mmHg, p=0.02)
• Los valores del IC no siempre son clínicamente importantes(“El medicamento redujo la presión arterial diastólica enpromedio 18 mmHg, de 110 a 92 mmHg, IC95% 2 a 34mmHg, p=0.02”)
Valores del IC clínicamente importantes
Probabilidad de que la intervención sea clínicamente efectiva
Si Si
No No
Algunos Muestra insuficiente para valorar el efecto
Reflexiones sobre las pruebas de hipótesis (PH)
• Están desarrolladas para el caso de que los datos procedan de
una muestra seleccionada aleatoriamente.
• Se basan en una suposición que raras veces se cumple en la
práctica: la hipótesis nula es cierta
• Ignoran el tamaño o magnitud del efecto y se centra en una
decisión dicotómica a favor o en contra de una hipótesis.
• Confusión de significancia clínica con estadística:
Un valor p no refleja en absoluto la magnitud de la diferencia que se
observa, sino la probabilidad de haber observado esa diferencia si en
realidad no hay ninguna.
Silva-Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud. Diaz de Santos1997Clark ML. Los valores P y los intervalos de confianza. Rev Panam Salud Publica.2004;15(5):293-6
Reflexiones sobre las pruebas de hipótesis
• Creencia de que un valor p mayor que α confirma que la
hipótesis nula es correcta, o que representa la probabilidad
de que lo sea.
• El no poder rechazar la hipótesis nula no equivale a poder
confirmarla.
• Dependen de un factor ajeno al problema de estudio: el tamaño de la muestra.
• La elección de trabajar con una o dos colas depende de la visión subjetiva del investigador.
Silva-Ayçaguer LC. Cultura estadística e investigación científica en el campo de la salud. Diaz de Santos1997Clark ML. Los valores P y los intervalos de confianza. Rev Panam Salud Publica.2004;15(5):293-6
Error 7. No confirmar el cumplimiento de los
supuestos de las pruebas estadísticas utilizadas.
• La aplicación de pruebas de hipótesis sin la verificación desupuestos puede dar resultados no precisos.
• Se debe incluir la información sobre la manera en que severificaron los supuestos de las pruebas utilizadas.
• Errores:
▫ Usar pruebas paramétricas cuando los datos nodistribuyen normal.
▫ Usar pruebas para análisis de grupos independientescuando realmente son grupos relacionados
Error 8. Utilizar un análisis de regresión lineal
sin haber demostrado que la relación es, de
hecho, lineal.
• Sin verificar los supuestoslos resultados pueden estarincorrectos.
• Supuesto de linealidad:gráficamente se verificacontrastando los residualesde los datos con la línea deregresión.
Error 9. Reporte de “missing data”.
• Considerar los siguientes aspectos cuando hayanresultados faltantes:
1. Naturaleza del missing data: outliers no incluidos en elanálisis? pérdida accidental de los datos? Fueronexcluidos algunos datos por no respaldar la hipótesis?
2. Generalización de los resultados: es el rango de valoresreal? Fue tan bajo los drop outs?
3. La calidad del estudio. Si no coinciden los totales, cuancuidadoso fue el autor?
• Para evaluar los missing data revise el flujograma de lospacientes que participaron en el estudio
http://www.consort-statement.org/
Error 9. Reporte de
“missing data”.
Error 10. No informar si se hicieron o cómo se
hicieron los ajustes para las pruebas de
hipótesis múltiples.
• Múltiples pruebas de hipótesis en un conjunto de datosincrementan el riesgo de encontrar diferencias solo porazar.
Motulsky H. Intuitive Biostatistics. New York, Oxford University Press. 1995
No. de Ho independientes
1 2 3 4 5 6 7 8 9 10 20 50
P de que uno o más valor
p<0.05 solo por azar
5% 10% 14% 19% 23% 26% 30% 34% 37% 40% 64% 92%
Ajuste del valor crítico de rechazo 0.0
5
0.0
25
3
0.0
17
0
0.0
12
7
0.0
10
2
0.0
08
5
0.0
07
3
0.0
06
4
0.0
05
7
0.0
05
1
0.0
02
6
0.0
01
0
• Ocurre cuando:
1. Se establece si los grupos de comparación tienen características basales similares (se espera que no hayan).
Predictors of 30-Day Mortality andHospital Costs in Patients WithVentilator-Associated PneumoniaAttributed to Potentially Antibiotic-Resistant Gram-Negative Bacteria
CHEST 2008; 134:281–287
• Ocurre cuando:
2. Realización de múltiples comparaciones por pares:
cuando en tres o más grupos de datos se realizan
comparaciones de dos en dos por separado.
3. Evaluar múltiples endpoints que están influenciados
por el mismo conjunto de variables explicativas
4. La realización de análisis secundarios de las
relaciones observadas durante el estudio, pero no
identificadas en el diseño original.
• Ocurre cuando:
6. La realización de análisis de subgrupos no planeados
en el estudio original.
7. Se hace múltiples análisis interinos con datos
acumulados (medición del efecto en diferentes
momentos).
8. Se comparan grupos de individuos en diferentes
momentos del tiempo.
Error 11. Presentación innecesaria de la
comparación estadística de las características
baslaes en el ensayo clínico aleatorio.
• Cualquier diferencia de las características basales entrelos grupos de un ensayo con asignación aleatoria se debeal azar y no indica al presencia de sesgo como si ocurre enotros tipos de estudio.
• Las diferencias observadas solo indican que deben serajustadas en el análisis estadístico de los resultados peroel valor p no debe ser reportado.
Declaración de Consort
Error 12. No se define “normal” o “anormal”
al informar resultados de pruebas diagnósticas.
Qué es normal en Medicina?
Diagnóstico Tratamiento Riesgo Estadística Percentiles Social
Sin relación clínica
Error 13. No se explica cómo fueron manejados
los resultados inciertos cuando se calculó la
sensibilidad y especificidad de una prueba
• No todas las pruebas diagnósticas proporcionan resultados claramente positivos o negativos.
• Se deben reportar el número de pacientes conresultados intermedios, indeterminado oininterpretables e
informar como se
manejaron en el
análisis
Error 14. Uso de tablas y figuras sólo para
“almacenar” los datos, en lugar de ayudar a los
lectores.
• Las tablas y figuras comunican información.
• Las tablas comunican mejor datos numéricos precisos.
• Los gráficos de puntos comunican patrones generalesde comparación
• Mapas comunican mejor las relaciones espaciales
Error 15. Uso de un diagrama o gráfico en el
que el mensaje visual no es compatible con el
mensaje de los datos del texto.
• Se recuerda mejor el mensaje de una imagen que el de los datos en que se basa. Debe existir entre ellos concordancia de la información .
• Atentos con los valores de inicio de los ejes porque se distorsiona la información.
INCORRECTO
INCORRECTO
Journal of Clinical Epidemiology. 2010;63:1045-1047
Escala Aritmética: incorrecta Escala Logarítmica: correcta
Error 16. Confundir las “unidades de
observación” al informar e interpretar los
resultados.
• La unidad de observación es la unidad de estudio.
• Diferenciar la unidad de estudio de los pacientesestudiados, a veces coinciden.
• La unidad de observación la define el objetivo delestudio.
Error 17. Interpretación de estudios con
resultados no significativos y de bajo poder
estadístico como “negativo”, cuando lo son, de
hecho, no concluyentes.
• Confusión de términos “negativo” y “no conluyente”como si fueran similares.
• En estudios con bajo poder los resultados observadosno son negativos sino no concluyentes porque elestudio es incapaz de detectar diferencias cuandorealmente existen.
• Sucede lo mismo con las pruebas de hipótesis en lacomparaciones basales de los grupos porque tiene bajopoder.
Error 18. No distinguir entre estudios
“pragmáticos”(efectividad) y “explicativos”
(eficacia) en el diseño e interpretación de
investigación biomédica.
Característica Explicativos Pragmáticos
Objetivo Comprender la enfermedad o procesos terapéuticos
Guiar la decisión clínica
Condiciones del estudio
Ideales o condiciones de laboratorio
Práctica clínica
Hallazgos Conocimiento biológico no generalizable a la práctica clínica
Afectados por factores no controlados
AspectoExplicativos o
EficaciaPragmáticos o
Efectividad
Pregunta Respuesta en circunstancias ideales
Respuesta en circunstanciasreales
Criterios de elegibilidad
Estrictos. Limitados a alto riesgo y alta adherencia
Todos los pacientes
Pacientes excluidos durante el estudio
Excluidos del análisis Incluidos en el análisis
Tratamiento Estricta vigilancia de la administración
De rutina
Intensidad del seguimiento
Alto número de visitas De rutina
Comparación entre los tipos de ensayos clínicos
Haynes B, Sackett D, Guyatt G, Tugwell P. Clinical Epidemiology: How to Do Clinical Practice Research. 3 edition
Aspecto Explicativos o EficaciaPragmáticos o
Efectividad
Compliance o adherencia
Monitoreo estricto, estrategiaspara mejorar adherencia
Poco o ningún monitoreo
Desenlaces Efectos adversos atribuidos al tratamiento
Todos los efectos negativos aun cuando no estén relacionados
Seguimiento Hasta que desarrolla el evento Hasta la muerte o finalizacióndel seguimiento, lo que ocurra primero
Eventosanalizados
Solo los que ocurren durante el tiempo en que el paciente recibe la terapia
Cualquiera que ocurra luego de la asignación aleatoria
Comparación entre los tipos de ensayos clínicos
Haynes B, Sackett D, Guyatt G, Tugwell P. Clinical Epidemiology: How to Do Clinical Practice Research. 3 edition
Error 19. No informar de los resultados en
unidades de utilidad clínica.
• Existen diversas maneras de presentar los resultados y cada una cierta información sobre la efectividad clínica.
Medidas Relativas Medidas Absolutas
Riesgo RelativoReducción o Incrementodel Riesgo Absoluto
Reducción o Incrementodel Riesgo Relativo
NNT o NNH
Error 20. Confundir la significación estadística y
la importancia clínica.
• Pequeñas diferencias entre grupos con muestras grandes pueden ser estadísticamente significativas pero no clínicamente importantes.
• Grandes diferencias en grupos con muestras pequeñas pero no significativas pueden ser clínicamente importantes.
www.dentalhypotheses.com
• Las pruebas de significación estadística no informa de la importancia de los resultados, tan sólo de la probabilidad de que dichos resultados sean atribuibles al azar (p < 0,05).
• Los intervalos de confianza ofrecen información sobre la importancia y precisión de los resultados.
• Cualquier diferencia en el tamaño del efecto, por pequeña que sea, puede alcanzar significación estadística si la n es grande.
Ochoa C. Evaluación de la importancia de los resultados clínicos: importancia clínica frente significación estadística. Evid Pediatr. 2010;6:40
Evaluación de la importancia de los resultados
clínicos: importancia clínica frente significación
estadística
• Perspectivas de la valoración de la importancia clínica de los resultados:
Paciente Clínico Investigador
Industria farmacéutica Agencias reguladoras
Instituciones de salud
Autoridades de salud pública
Evid Pediatr. 2010;6:40
No hay consenso sobre la definición de un resultadoclínicamente importante, podría ser:
o Variable de resultado válida y con sentido clínico.
o Valorado al menos por alguna de las partes implicadas en el proceso asistencial.
oQue justifique una modificación en el manejo del paciente.
oQue suponga un beneficio para el paciente.
oDesenlace duradero, fácil de medir, aceptable (por los pacientes) y coste-efectiva.
Evid Pediatr. 2010;6:40
No hay consenso sobre la definición de un resultadoclínicamente importante, podría ser:
(CONT)
oQue haya alcanzado significación estadística en un estudio válido (ausencia de sesgos).
oDefinido por consenso de expertos.
o Adaptado a las circunstancias (diferente según la situación).
oQue dependa de la perspectiva desde la que se juzgue: clínicos, investigadores, pacientes, industria farmacéutica o agencias financiadoras.
Evid Pediatr. 2010;6:40
• La valoración de la importancia clínica pueden ser tomada de los criterios de causalidad.
o Temporalidad
o Plausibilidad biológica
o Fuerza de asociación
o Consistencia
o Coherencia
oGradiente biológico
Evid Pediatr. 2010;6:40
Proceso de valoración de la importancia clínica de los resultados de un estudio
Cuantitativa Cualitativa
ComparativaBeneficio
Riesgo/costes
Tamaño del efectoMedidas de frecuencia
Medidas de impacto
Evid Pediatr. 2010;6:40
Repercusión sobre la toma de decisiones
Otros estudios con las mismas o distintas medidas de efecto
Evid Pediatr. 2010;6:40
Ochoa C. Evaluación de la importancia de los resultados clínicos: importancia clínica frente significación estadística. Evid Pediatr. 2010;6:40
Tipos de error Fuentes de error
• Sesgo
• Imprecisión
• Muestreo
• Mediciones
• Estimación
• Pruebas de hipótesis
• Reporte
Categoría I. Sampling Bias
• La participación voluntaria de los sujetos de un estudio invariablemente contiene un sesgo de selección porque nunca existe una verdadera selección aleatoria.
• La inclusión de muestras de diferentes poblaciones requiere de un muestreo estratificado.
• La selección de controles en estudios de intervención puede inducir un sesgo de muestreo: inadecuada asignación aleatoria, implementación no concurrente de las intervenciones en estudio.
• Se afectan las medidas de tendencia central y de dispersión de los resultados
Cómo se minimiza el sesgo de selección?
• Definición específica de la población de interés: criterios de elegibilidad explícitos.
• Ajustes de la asignación aleatoria:
o Fija: simple, bloques, estratificada.
oDinámica
o Adaptativa
• Ajustar los resultados del estudio en caso de imbalance de las características basales de los grupos.
Categoría II. Sampling Imprecision
• El uso de muestras pequeñas aumenta la imprecisión, entonces por qué se usan?
• El error estándar depende inversamente del tamaño de la muestra pero no se relaciona linealmente.
• Ignorar la estructura de la población en el muestreo aumenta la imprecisión de los resultados
Categoría III. Measurement Bias
• Informar detalladamente los métodos de recolección de la información para brindar reproducibilidad.
• Los cambios en algunos procesos durante la ejecución del estudio puede ser una fuente de sesgo y hay que identificarlos.
Categoría IV. Measurement Imprecision
• Medir el coeficiente de variación como medida de imprecisión (CV=DE/media) cuando se hacen mediciones repetidas de un mismo espécimen en un mismo tiempo (error técnico).
Categoría V. Estimation Bias
• Error cuando se estima el parámetro con la información disponible, sigue una tendencia consistente.
• No esta relacionado con prejuicios derivados de la recogida de datos per se.
• Missing data: hubo?, informativos y no informativos
• En ensayos clínicos que comparan grupos de tto y uno de ellos es coadyuvante, no se puede estimar el efecto aislado del coadyuvante porque su efecto ocurre en presencia del ttoestándar:
▫ Sin tratamiento
▫ Tto estándar
▫ Tto estándar + coadyuvante
Categoría VI. Estimation Imprecision
• Error en la estimación del parámetro, sigue una tendencia en cualquier sentido, es llamado “ruido”.
• No confundir imprecisión adquirida por el proceso de muestreo con la imprecisión adquirida por la obtención de la estimación.
• Muestras pequeñas son mas imprecisas.
• La estructura de los datos afecta la precisión de los métodos utilizados en el análisis: cuando hay mediciones repetidas en un sujeto y se toma el valor como un promedio de ellas se aumenta la variabilidad
Categoría VII. Bias in hypothesis testing
Considerar los tipos de errores en la estimación porpruebas de hipótesis, principalmente el error tipo I
http://www.unc.edu/courses/2003fall/biol/145/001/docs/lectures/Sep29
Prueba de hipótesis de una cola
Zona deNo rechazo
Zona deNo rechazo
• Ofrece mayor potencia estadística
que la de dos colas.
• Usa mitad de la muestra que la de
dos colas.
• Uso en:
o Es imposible que se de una diferencia
de promedio en una dirección
o Bajo ninguna circunstancia es de interés
una diferencia en una dirección.
• Debe justificarse su elección en la
prueba
• Las múltiple pruebas de hipótesis incrementa el error
tipo I.
• Ajustar el nivel de significación cuando se realizan
pruebas múltiples.
• Verificar supuestos de las pruebas que se aplican.
• Idealmente ≥30 sujetos para verificar supuestos.
Categoría VIII. Imprecision in hypothesis testing
• Se mide con el error tipo II.
• El error tipo II se incrementa en las muestras pequeñas,
errores técnicos grandes y estimaciones imprecisas.
• Ocurre cuando se comparan grupos de diferentes tamaños
Categoría IX. Reporting Bias
• Contribución al sesgo de publicación.• Diferenciar las diferencias estadísticamente
significativas de las diferencias biológicasimportantes.
• Diferenciar estudios con resultados negativos de losestudios con resultados no concluyentes
Categoría X. Reporting Imprecision
• El uso de ± para indicar variación debe informarse sies la desviación estándar o el error estándar
• Informar parcialmente el valor p y la manera en quése obtuvo.