estimación de la sensibilidad y la especificidad de un
TRANSCRIPT
Máster en Estadística Aplicada
Departamento de Estadística e Investigación
Operativa
Estimación de la Sensibilidad y la Especificidad
de un test diagnóstico binario en presencia de
covariables. Solución de un problema de
aplicación
Autor: Edurne Alonso Morán
Tutor: Juan de Dios Luna del Castillo
Curso 2013-2014
1
Índice
1 Introducción y presentación del problema a resolver con un test diagnóstico binario………………………………………………………………………………………………………………………….2
1.1 Parámetros que no dependen de la prevalencia de la enfermedad (sensibilidad y especificidad)………………………………………………..…………………….…….3
1.2 Parámetros que sí dependen de la prevalencia de la enfermedad (sensibilidad y especificidad)……………………………………………………………….…..……….4
1.3 Estimaciones con dos muestras, una de sanos y otra de enfermos……………..8
1.4 Estimaciones con una única muestra………………………….………………………..….…9
1.5 Objetivo general del estudio………………..…………………………………………….……..11
2 La modelización de los factores que afectan al funcionamiento del test………………….13
2.1 El test diagnóstico no se comporta de manera constante en diferentes poblaciones…………...………………………………………………………………………………..…....13
2.2 Enumeración y caracterización de los factores que afectan al funcionamiento de un test diagnóstico binario…………….…………………………………16
2.3 Ejemplo práctico…..…………………………………….……………….……………………………20
2.4 Modelos lineales generalizados para la determinación del funcionamiento de un test diagnóstico binario con covariables: modelos para la determinación de la sensibilidad y de la especificidad y de la razón de verosimilitudes………….…22
3. Tres problemas que requieren la modelización multivariante para el ajuste: sensibilidad y especificidad ajustadas………………………………………………………………….....….33
3.1 Ejemplo del artículo de Janssens-2005, estimaciones de la sensibilidad, la especificidad y de la razón de verosimilitudes……………………………………………...….33
3.2 Análisis de los datos referentes al ajuste por covariables del repositorio DABS, en la dirección: http://labs.fhcrc.org/pepe/dabs/datasets.html............. 40
3.3. Ejemplo de la tira reactiva propuesto por Cristina la Torre et al. (2001).…….48
4. Figuras……………………………………………………………….……………………………………………....….51
5. Tablas……………………………….…………………………………………………………………….………....….52
6. Bibliografía..……………………………………………………………………….……………………………....…55
7. Apéndice…..……………………………………….………………………………………………………………..…57
2
1. Introducción y presentación del problema a resolver con un test
diagnóstico binario.
Los tests diagnósticos son muy usados en la práctica médica, se suelen usar en la
investigación de una población específica para manifestar la enfermedad y confirmar o
desmentir el resultado de un diagnóstico provisional de un paciente. La interpretación
de un test diagnóstico depende tanto de la habilidad intrínseca del propio test para
discriminar a los individuos enfermos de los sanos como de las características
particulares de cada individuo y del ambiente en el que se aplica el test.
Los tests diagnósticos se pueden clasificar como binarios, cuantitativos y ordinales,
según el resultado de dicho test. En la práctica, los más comunes son tests binarios cuyo
resultado es o la indicación de la presencia de la enfermedad o la indicación de la
ausencia de la enfermedad. A partir de aquí, nos vamos a centrar en este tipo de test
diagnóstico.
El test de referencia o también denominado “Gold Standard” es el procedimiento o
estudio que se utiliza para definir el verdadero estado del paciente. Es el test
universalmente aceptado para diagnosticar la enfermedad en cuestión y con el cual se
comparan nuevos tests para diagnosticar la misma enfermedad (en general menos
invasivos, menos costosos o más fáciles de realizar).
El suceso que indica que un sujeto de la población tiene la enfermedad se define como
D y el suceso que denota que un sujeto no tiene la enfermedad como �̅�. A la
probabilidad de que un sujeto de la población tenga la enfermedad se le llama
prevalencia de la enfermedad en la población y se denota por P(D) o p .
Considérese, ahora, un test diagnóstico binario, con los resultados: positivo T y negativo
�̅� . Si la prueba tiene resultado positivo se puede considerar que el individuo tiene la
enfermedad y si la prueba tiene resultado negativo se considera que el individuo no
tiene la enfermedad.
Los resultados del test diagnóstico se pueden clasificar como verdaderos positivos (TP),
verdaderos negativos (TN), falsos positivos (FP) o falsos negativos (FN). Un verdadero
3
positivo ocurre cuando un sujeto enfermo es correctamente clasificado como positivo
en el resultado del test, un verdadero negativo ocurre cuando un sujeto no afectado por
la enfermedad tiene un resultado negativo en el test diagnóstico, un falso positivo
ocurre cuando un sujeto no afectado por la enfermedad tiene un resultado positivo en
el test diagnóstico y un falso negativo ocurre cuando un sujeto afectado por la
enfermedad obtiene un resultado negativo en el test diagnóstico. Por lo tanto una
prueba diagnóstica puede tener dos tipos de errores, los errores falsos positivos y los
errores falsos negativos.
Existen dos tipos de parámetros: los que no dependen de la prevalencia de la
enfermedad y los que sí dependen de la prevalencia de la enfermedad.
1.1 Parámetros que no dependen de la prevalencia de la enfermedad
(sensibilidad y especificidad)
Estos parámetros no dependen de la probabilidad de presentación de la enfermedad en
la población en la que se apliquen, siendo características que sólo dependen del test
diagnóstico, definiendo de manera intrínseca o la calidad del mismo, es decir su
precisión, o lo informativo que resulta ese test.
La sensibilidad de una prueba (Se) es su habilidad para detectar la enfermedad cuando
está realmente presente. Se puede escribir como Se=P(T/D); se conoce también como
Fracción de Verdaderos Positivos (TPF). La Especificidad de una prueba (Sp) es su
habilidad para excluir la enfermedad cuando no está presente. Se puede escribir como
Sp=P(�̅�/�̅�). La especificidad se conoce también como Fracción de Verdaderos Negativos
(TNF) o más comúnmente como 1 – FPF, siendo FPF la Fracción de Falsos Positivos, FPF
= P(T/�̅�). Una test ideal tendrá FPF = 0 y TPF = 1.
Por la definición, que claro que tanto la sensibilidad como la especificidad de un test
diagnóstico son probabilidades de aciertos. Luego, la suma de las probabilidades de un
verdadero positivo y de un falso negativo es la unidad. P(T/D) + P(�̅�/D) =1.
Análogamente, P(�̅�/�̅�)+P(T/�̅�)=1.
4
La razón de verosimilitudes es el cociente de dos probabilidades: la probabilidad de un
resultado de la prueba particular en pacientes con la enfermedad entre la probabilidad
de ese resultado de la prueba en pacientes sin la enfermedad. Se denota la razón de
verosimilitudes como LR. Como la precisión de un test tiene dos dimensiones se tiene la
razón de verosimilitud para un test positivo, LR+ y la razón de verosimilitudes para una
test negativo, LR-.
𝐿𝑅+=𝑃(𝑇 𝐷⁄ )
𝑃(T/�̅�)=
𝑆𝑒
1 − 𝑆𝑝
𝐿𝑅−=𝑃(�̅� 𝐷⁄ )
P(�̅�/�̅�)=
1 − 𝑆𝑒
𝑆𝑝
Las razones de verisimilitudes van desde 0 hasta ∞. Las LRs cuantifican el aumento en
el conocimiento sobre la presencia de la enfermedad que es adquirido a través de la
prueba diagnóstica. Por lo tanto, los parámetros (LR+, LR-) cuantifican el cambio en las
probabilidades de enfermedad obtenido por el conocimiento de los resultados de la
prueba diagnóstica.
Lo lógico es que en un test diagnóstico ocurra que P(T|D) > P(T|�̅�) y por tanto LR+ > 1,
indicando un aporte mayor de información del test para un resultado positivo conforme
más separado esté de 1. De la misma manera en un test diagnóstico lo lógico es que
P(�̅�|D) < P(�̅�|�̅�) y de ahí ocurrirá que LR¯ < 1 siendo más informativo el test con respecto
al negativo conforme este más alejado de 1 siendo inferior a él. Tanto una medida como
la otra reflejan muy bien los aportes del tests cuando da positivo y cuando da negativo
a la afirmación o al descarte de la enfermedad.
1.2 Parámetros que sí dependen de la prevalencia de la enfermedad (valor
predictivo positivo y valor predictivo negativo)
Los parámetros anteriores son aquellos que hacen referencia a la calidad diagnóstica
intrínseca del test, sin embargo, esos parámetros no ayudan para diagnosticar a una
persona concreta, no aportan información acerca de la probabilidad de que una persona
tenga o no la enfermedad, una vez que le hayamos pasado el tests diagnóstico y
sepamos si ha salido positivo o negativo. Los parámetros que no dependen de la
5
prevalencia de la enfermedad son los que definen el funcionamiento del test a posteriori
una vez que conozcamos el resultado del mismo.
Supongamos que se ha pasado un test diagnóstico a un individuo y que éste ha dado
positivo, T, lo que importa es conocer cuánto vale P(D|T), que es el denominado valor
predictivo positivo (VPP). Aplicando el teorema de Bayes:
𝑉𝑃𝑃 =𝑃(𝐷 𝑇⁄ )
𝑃(𝑇)=
𝑃(𝐷)𝑃(𝑇 𝐷⁄ )
𝑃(𝐷)𝑃(𝑇 𝐷⁄ ) + 𝑃(�̅�)𝑃(𝑇 �̅�⁄ )=
𝑝𝑆𝑒
𝑝𝑆𝑒 + (1 − 𝑝)(1 + 𝑆𝑝)
El valor predictivo positivo no sólo depende de la calidad del test diagnóstico sino que
además depende de la prevalencia de la enfermedad, de la probabilidad de que un
individuo elegido al azar de la población esté enfermo, p. Además esa dependencia es
muy directa en el sentido de que conforme sea mayor la prevalencia mayor será VPP.
Supongamos que la prevalencia es fija, en ese caso la Se juega un papel relevante, pero
éste queda condicionado por la prevalencia. Sin embargo, el efecto de la Sp es muy
fuerte, pues si esta es muy grande la cantidad 1-Sp será muy pequeña y el producto (1-
p)(1-Sp) será muy pequeño cercano a cero con lo que el cociente VPP será muy cercano
a 1. Por tanto en el valor predictivo positivo intervienen la sensibilidad y la especificidad
del test, pero el efecto de ésta es mucho más fuerte que el de la sensibilidad, pero sobre
todo está muy condicionado por la prevalencia.
Figura 1. Valores Predictivos de un test para diferentes prevalencias, con Se=0,85 y
Sp=0,95
6
Supongamos, ahora, que se ha pasado un test diagnóstico a un individuo y que éste ha
dado negativo, interesa conocer cuánto vale P(�̅�|�̅�), que es el denominado valor
predictivo negativo (VPN). Aplicando el teorema de Bayes:
𝑉𝑃𝑃 =P(�̅�|�̅�)
𝑃(�̅�)=
𝑃(�̅�)𝑃(�̅� �̅�⁄ )
𝑃(�̅�)𝑃(�̅� �̅�⁄ ) + 𝑃(𝐷)𝑃(�̅� 𝐷⁄ )=
(1 − 𝑝)𝑆𝑝
(1 − 𝑝)𝑆𝑝 + 𝑝(1 − 𝑆𝑒)
VPN también depende de la prevalencia de la enfermedad, en este caso de manera
inversa, cuanto mayor sea la prevalencia menor será el VPN. De la misma manera que
antes, la sensibilidad y la especificidad del test juegan un papel relevante en el caso del
VPN, pero, también como ya hemos visto, el papel más relevante lo juega ahora la
sensibilidad porque si ésta toma valores muy altos, entonces el valor de VPN estará muy
cercano a 1 independientemente de los valores de la prevalencia y de Sp.
Hay que tener en cuenta que, para los valores de la prevalencia en la que la curva de
VPN(p) domine a la curva de VPP(p), el test es preferido para descartar la enfermedad
que para confirmarla, puesto que en esos valores VPN(p)>VPP(p); en la prevalencia en
la que se cortan ambas curvas tendríamos que sería indistinto el uso del test, y a partir
de esa prevalencia sería preferido el test para confirmar la enfermedad, puesto que en
ese caso VPP>VPN. Por tanto, la prevalencia en la que se cortan ambas curvas juega un
papel determinante para saber para qué sirve un test. Al revés también ocurre, luego,
calculando el punto de corte de VPP(p) y VPN(p) podemos establecer zonas de la
prevalencia dónde el test será mejor para descartar que para afirmar y viceversa.
Supongamos que hemos calculado el VPP para una prevalencia fija. Una manera de
determinar la rebaja de incertidumbre para el paciente en la afirmación de la
enfermedad debido a que el test ha dado positivo, es calcular la diferencia P(D|T)-P(D),
que se denomina Ganancia del Positivo (GP) y que mide en cuanto se ha incrementado
la probabilidad de tener la enfermedad por el hecho de que el test de positivo. Es claro
que si ese incremento es muy alto el test, a esa prevalencia, aporta bastante a la
probabilidad de tener la enfermedad, mientras que si es bajo, el test aporta poco.
Razonando igual definiremos la ganancia del negativo como GN=P(�̅�|�̅�)-P(�̅�) , que mide
la rebaja en la incertidumbre de no tener la enfermedad por el hecho de que el test hay
dado negativo. La forma de razonar es la misma para la GN que para la GP.
7
Figura 2. Valores Predictivos de un test para diferentes prevalencias, con las
respectivas ganancias, con Se=0,85 y Sp=0,95
Concluimos que:
Las dos curvas alcanzan un máximo en un valor de p, entre 0 y 1, de manera que
antes de esa prevalencia el aporte al incremento de la probabilidad lo hace el
test mientras que a partir de ese punto de corte el aporte al incremento de la
probabilidad lo hace la prevalencia.
El máximo de la ganancia del positivo es mayor que el máximo de la ganancia del
negativo, y ello debido a que la especificidad del test es mayor que su
sensibilidad.
En los valores dónde se consigue el máximo de la ganancia, se consigue también
un valor alto de la prevalencia. Por tanto el valor de la prevalencia dónde se
consigue el máximo de GP(p) y del GN(p) son una cantidades muy relevantes
para conocer en qué zonas de la prevalencia funciona bien el test.
Si uno desea tener un tests diagnóstico con una gran capacidad para descartar la
enfermedad, es decir con un valor predictivo negativo alto (si el test da negativo el
paciente debe tener una probabilidad alta de no tener la enfermedad), lo que debe
buscar es un test muy sensible. Por el contrario si uno desea un test con un valor
8
predictivo positivo alto (si da positivo desea tener una probabilidad alta de que el
paciente tenga la enfermedad) necesitara que el test tenga una especificidad alta.
Para la estimación de los parámetros anteriormente descritos distinguimos entre dos
situaciones: c) estimaciones con dos muestras, una de sanos y otra de enfermos; d)
estimaciones en una única muestra.
1.3 Estimaciones con dos muestras, una de sanos y otra de enfermos
Se consideran dos muestras, una de enfermos de tamaño 𝑛1 y otra de sanos de tamaño
𝑛2, y a todos los individuos se les aplica el test.
Tabla 1. Frecuencias observadas al aplicar un test binario a dos muestras, una de
enfermos y otro de sanos
La estimación de la sensibilidad es la estimación de una proporción de una distribución
Binomial: 𝑃(𝑇 𝐷⁄ ) = 𝑝𝑆𝑒 𝑝⁄ = 𝑆𝑒. Condicionando en n1 se tiene que a→B(𝑛1,Se) y por
tanto el estimador de Se es 𝑆�̂� = 𝑎/𝑛1. A continuación, se definen varios tipos de
intervalos de confianza para dicho estimador:
Intervalo de confianza exacto:
[𝑆̅𝑒1 = 𝑎 𝑎 + 𝐹1(𝑛1 − 𝑎 + 1)⁄ , 𝑆̅𝑒2 = 𝐹2(𝑎 + 1) (𝑛1 − 𝑎) + 𝐹2(𝑎 + 1)⁄ ]
Intervalo de confianza aproximado a través de la Normal:
[�̂�𝑒 − 𝑧1−
𝛼2
√�̂�𝑎𝑟(�̂�𝑒), �̂�𝑒 + 𝑧1−
𝛼2
√�̂�𝑎𝑟(�̂�𝑒)]
Intervalo de confianza de Agresti:
�̂�𝑒 +
𝑧1−
∝2
2
2𝑛1± 𝑧
1−∝2
√[�̂�𝑒(1 − �̂�𝑒) +
𝑧1−
∝2
2
4𝑛1]
𝑛11 +
𝑧1−
∝2
2
𝑛1⁄
9
Intervalo de confianza cuadrático de Fleiss:
𝑆𝑒 ∈ (𝑎 ± 0,5) +𝑧∝
2
2± 𝑧∝
√𝑧∝
2
4+ (𝑎 ± 0,5)(1 −
𝑎 ± 0,5
𝑛1) 𝑛1 + 𝑧∝
2⁄
Intervalo de confianza de Wilson:
�̂�𝑒 (𝑛1
𝑛1 + 𝑧1−
∝2
2 ) +1
2(
𝑧1−
∝2
2
𝑛1 + 𝑧1−
∝2
2 )
± 𝑧∝2
√1
𝑛1 + 𝑧1−
∝2
2 [�̂�𝑒(1 − �̂�𝑒) (𝑛1
𝑛1 + 𝑧1−
∝2
2 ) +1
2
1
2 (
𝑧1−
∝2
2
𝑛1 + 𝑧1−
∝2
2 )]
La estimación de la especificidad al igual que la sensibilidad es la estimación de una
proporción de una distribución Binomial y las estimaciones anteriores para la
sensibilidad es válido también para la especificidad cambiando a por d y 𝑛1 por 𝑛2.
1.4 Estimaciones con una única muestra
Cuando se tiene una única muestra de individuos de la población clasificada en función
de la presencia o ausencia de la enfermedad y del resultado del test, se tiene la
realización de una multinomial y condicionando en los valores totales de las filas se tiene
para cada una de las casillas de la tabla una distribución binomial, por lo que las
estimaciones empíricas de los valores predictivos son estimaciones de proporciones de
distribuciones binomiales. Luego:
𝑃𝑃�̂� =𝑎
𝑎 + 𝑏
𝑃𝑁�̂� =𝑑
𝑐 + 𝑑
A continuación, se definen varios tipos de intervalos de confianza para dichos
estimadores:
Intervalo de confianza exacto:
o Dada una observación a de una B(a,PPV), un intervalo de confianza
exacto para PPV es PPV∈ (𝑃𝑃𝑉1, 𝑃𝑃𝑉2) donde
10
𝑃𝑃𝑉1=𝑎
𝑎+((𝑎+𝑏)−𝑎+1)𝐹∝2
[2((𝑎+𝑏)−𝑎+1);2𝑎] y
𝑃𝑃𝑉2=(𝑎+1)𝐹∝
2[2(𝑎+1);2((𝑎+𝑏)−𝑎)]
((𝑎+𝑏)−𝑎)+(𝑎+1)𝐹∝2
[2(𝑎+1);2((𝑎+𝑏)−𝑎)]
o De forma semejante PNV∈ (𝑃𝑁𝑉1, 𝑃𝑁𝑉2) donde
𝑃𝑁𝑉1=𝑑
𝑑+((𝑐+𝑑)−𝑑+1)𝐹∝2
[2((𝑐+𝑑)−𝑑+1);2𝑑] y
𝑃𝑁𝑉2=(𝑑+1)𝐹∝
2[2(𝑑+1);2((𝑑+𝑐)−𝑑)]
((𝑑+𝑐)−𝑑)+(𝑑+1)𝐹∝2
[2(𝑎+1);2((𝑑+𝑐)−𝑑)]
Intervalo de confianza aproximado a través de la Normal:
o Para el PPV es
[𝑃𝑃�̂� − 𝑧1−∝
2
√�̂�𝑎𝑟(𝑃𝑃�̂�), 𝑃𝑃�̂� + 𝑧1−∝
2
√�̂�𝑎𝑟(𝑃𝑃�̂�)]
o Para el PNV es
[𝑃𝑁�̂� − 𝑧1−∝
2
√�̂�𝑎𝑟(𝑃𝑁�̂�), 𝑃𝑁�̂� + 𝑧1−∝
2
√�̂�𝑎𝑟(𝑃𝑁�̂�)]
Intervalo de confianza de Agresti:
o Para el PPV es
𝑃𝑃�̂� +𝑧
1−∝2
2
2(𝑎 + 𝑏)± 𝑧
1−∝2
√[𝑃𝑃�̂�(1 − 𝑃𝑃�̂�] +
𝑧1−
∝2
2
4(𝑎 + 𝑏)(𝑎 + 𝑏)
1 +
𝑧1−
∝2
2
(𝑎 + 𝑏)
o Para el PNV es
𝑃𝑁�̂� +𝑧
1−∝2
2
2(𝑐 + 𝑑)± 𝑧
1−∝2
√[𝑃𝑁�̂�(1 − 𝑃𝑁�̂�] +
𝑧1−
∝2
2
4(𝑐 + 𝑑)(𝑐 + 𝑑)
1 +
𝑧1−
∝2
2
(𝑐 + 𝑑)
Intervalo de confianza cuadrático de Fleiss:
o Para el PPV es
𝑃𝑃𝑉 ∈
(𝑎 ± 0,5) + 𝑧∝2 ± 𝑧∝√
𝑧∝2
4 + (𝑎 ± 0,5)(1 −𝑎 ± 0,5(𝑎 + 𝑏)
)
(𝑎 + 𝑏) + 𝑧∝2
11
o Para el PNV es 𝑃𝑁𝑉 ∈
(𝑑±0,5)+𝑧∝2±𝑧∝√
𝑧∝2
4+(𝑎±0,5)(1−
𝑎±0,5
(𝑐+𝑑))
(𝑐+𝑑)+𝑧∝2
Intervalo de confianza de Wilson:
o Para el PPV es
𝑃𝑃�̂� ((𝑎 + 𝑏)
(𝑎 + 𝑏) + 𝑧∝2
2) +1
2(
𝑧∝2
2
(𝑎 + 𝑏) + 𝑧∝2
2)
± 𝑧∝2
√1
(𝑎 + 𝑏) + 𝑧∝2
2 [𝑃𝑃�̂�(1 − 𝑃𝑃�̂�) ((𝑎 + 𝑏)
(𝑎 + 𝑏) + 𝑧∝2
2) +1
2
1
2 (
𝑧1−
∝2
2
(𝑎 + 𝑏) + 𝑧∝2
2)]
o Para el PPV es
𝑃𝑁�̂� ((𝑐 + 𝑑)
(𝑐 + 𝑑) + 𝑧∝2
2) +1
2(
𝑧∝2
2
(𝑐 + 𝑑) + 𝑧∝2
2)
± 𝑧∝2
√1
(𝑐 + 𝑑) + 𝑧∝2
2 [𝑃𝑁�̂�(1 − 𝑃𝑁�̂�) ((𝑐 + 𝑑)
(𝑐 + 𝑑) + 𝑧∝2
2) +1
2
1
2 (
𝑧1−
∝2
2
(𝑐 + 𝑑) + 𝑧∝2
2)]
1.5 El objetivo general de este trabajo
Hay que tener en cuenta que la situación del test no es idílica y que existen varios
factores que pueden influenciar los resultados de dichos tests. El en medio en el cual se
realiza el test, las propias características del ensayador, las características socio-
demográficas de los sujetos en cuestión son algunos de estos factores.
Supongamos, por ejemplo, que tenemos el registro de unas pruebas de audiometría en
un grupo de neonatos. A cada neonato se le aplica 3 tests diferentes en cada oído. Para
saber qué test es más adecuado hay que hacer un análisis de cómo afectan las variables
externas a dicho test. Por ejemplo, hay que tener en cuenta la edad del neonato, el lugar
dónde se realizó la prueba (en la habitación de un hospital o en una habitación específica
para el sonido o en ambas), medidas de severidad de la sordera…
Es decir, pese a que las medidas de exactitud de un tests diagnóstico no dependan de la
prevalencia de la enfermedad eso no quiere decir que esas medidas no se vean
12
afectadas de manera diferente por características de la población en la que se aplican;
es más lo común será que un test diagnóstico se deje afectar tanto en su sensibilidad
como en su especificidad por esas características pudiendo y debiendo modelizarse esas
medidas en función de las covariables que definan las características poblacionales. Pues
bien, el objetivo fundamental de este estudio es la modelización tanto de la sensibilidad
como de la especificidad en función de covariables cualitativas o cuantitativas y la
determinación de la rebaja en la incertidumbre de la sensibilidad y de la especificidad
que tal modelización lleva consigo.
En la siguiente sección entraremos de lleno en el estudio del problema recién enunciado.
13
2. La modelización de los factores que afectan al funcionamiento del test.
En este apartado se llevará a cabo la presentación del marco teórico de este trabajo de
fin de máster a partir de los trabajos de Hermann Brenner et al. (1997), el libro de
Margaret S. Pepe (2004), Janssens et al. (2005), Coughlin et al. (1992), George A.
Diamond (1992), Cristina Latorre et al. (2001), Smith y Hadgu (1992), Leisenring et al.
(1997) y Sternberg y Hadgu (2001).
2.1. El test diagnóstico no se comporta de manera constante en diferentes
poblaciones.
Una limitación ampliamente reconocida de los valores predictivos es su dependencia de
la prevalencia de la enfermedad. Por el contrario, la sensibilidad, la especificidad y el
estimador de máxima verosimilitud (likelihood ratios) son generalmente considerados
independientes de la prevalencia de la enfermedad. En consecuencia, estas medidas son
a menudo consideradas como puntos de referencia constantes del rendimiento de los
test que se emplean para comparar el valor diagnóstico de pruebas alternativas. Tal
razonamiento se justifica en situaciones con un estado de la enfermedad dicotómico y
una probabilidad homogénea de clasificación errónea del diagnóstico dentro de la
población de individuos enfermos y dentro de la población de individuos no enfermos.
No obstante, en muchas situaciones prácticas es probable que los supuestos sean
violados ya que en pocas situaciones el estado de la enfermedad es negro o blanco (por
ejemplo, muerto frente vivo). Más típicamente, hay una continuidad de los rasgos
(medibles o no medibles) en que se basa la clasificación del estado de la enfermedad,
que van desde la clara ausencia a la clara presencia de la enfermedad. En el caso más
sencillo, en el que una categorización binaria del estado de la enfermedad se hace sobre
la base de un único rasgo continuo, la clasificación de diagnóstico de los pacientes
depende de si la medición de este rasgo está por encima o por debajo de un punto de
corte definido. Por ejemplo, los individuos se clasifican como hipertensos en relación a
la presión sanguínea. Lo ideal sería que esta clasificación se basará en los niveles usuales
(promedio) de la presión arterial del individuo. En la práctica, se recogen una o dos
mediciones y esto puede conducir a errores de clasificación del diagnóstico debido a la
14
variabilidad intra-individuos de la presión arterial. En otras situaciones, los rasgos
continuos subyacentes son menos fácilmente cuantificables, en cuyo caso la
subjetividad de calificaciones proporciona otra fuente más de error de medición.
Los ejemplos más comunes incluyen los diagnósticos basados en los síntomas clínicos o
cambios radiológicos. En muchas otras situaciones, la inexactitud de los procedimientos
de prueba refleja principalmente la influencia de covariables no medidas en resultados
de las pruebas que no están relacionados con la enfermedad de interés. Por ejemplo,
los niveles séricos de gamma-glutamil transferasa (GGT) se utilizan a menudo como
pruebas para trastornos hepáticos relacionados con el alcohol y utilizan varios puntos
de corte. Aunque el alcohol es el factor causal más importante para la elevación de GGT,
alguna variación de los niveles de GGT es debida a otros factores, tales como infecciones
virales.
Los puntos de corte de diagnóstico a menudo se establecen por consenso mutuo o
explícito de expertos. Ejemplos son los puntos de corte para la hipertensión o
hiperlipidemia. En otras situaciones, los puntos de corte son impuestas por el umbral de
la manifestación clínica. Esto se aplicaría a muchos diagnósticos, tales como infarto de
miocardio o el cáncer de próstata, que a menudo se escapan de la verificación del
diagnóstico.
Debido a que los individuos con niveles reales cercanos al punto de corte de la prueba
diagnóstico son más propensos a ser mal clasificados que otros individuos en la
presencia de un error de medición o de la variabilidad intra-individual de los rasgos
subyacentes, o debido a la influencia de las covariables no controladas, las tasas de
clasificación errónea se esperan que varíen entre poblaciones, en función de la
distribución de los niveles reales de los rasgos subyacentes relativos a la prueba de
diagnóstico de punto de corte.
Esta distribución, sin embargo, también determina la prevalencia de la enfermedad en
la población. Los errores de clasificación de diagnóstico y la prevalencia de la
enfermedad, por lo tanto, están interrelacionados.
15
Es bien sabido que los estudios de pruebas diagnóstico están sujetas a una serie de
sesgos: sesgo de verificación, errores en la referencia, “spectrum bias”, sesgo de
interpretación, test insatisfactorios y sesgo de extrapolación.
a) El sesgo de verificación: Selección no aleatoria para la evaluación definitiva de la
enfermedad con la prueba “gold estándar” de referencia.
b) Errores en la referencia: El estado verdadero de enfermedad está sujeto a
clasificación errónea porque el “gold estándar” es imperfecto.
c) El denominado “spectrum bias” (espectro de sesgo) se produce cuando los
sujetos enfermos en el estudio no son representativos de los sujetos enfermos
en la población, o por el contrario si los controles seleccionados para el estudio
son diferentes de los controles de la población. Un error común es seleccionar
los casos que tienen la enfermedad severa o crónica y los controles que sean en
promedio más sanos que los sujetos no enfermos en la población. Dicha
selección puede mejorar la aparente precisión de la prueba de diagnóstico. Al
igual que en estudios epidemiológicos, los casos y controles en un estudio de
diagnóstico deben ser seleccionados al azar de las poblaciones objetivos de
enfermos y no enfermos.
La variación de la sensibilidad y la especificidad en la distribución de los rasgos
subyacentes ha sido señalada por Ransohoff y Feinstein (1978). Ellos acuñaron
el término "spectrum bias” de este fenómeno que se ha demostrado en diversos
estudios empíricos. Ejemplos publicados incluyen, entre otros, exámenes de
laboratorio, electrocardiogramas, gammagrafías y ultrasonografías. A pesar del
reconocimiento reiterado de la variación de la sensibilidad y la especificidad con
la prevalencia de la enfermedad, está ausente en la metodología la orientación
a este fenómeno.
d) La prueba de sesgo de interpretación surge si la información extraña, como los
síntomas clínicos o el resultado de otra prueba, influencian en el procedimiento
de la misma o en su interpretación de una manera que diferente de cómo se
aplicaría en la práctica. Por ejemplo, los resultados de una mamografía pueden
influir en la interpretación de un bulto de un examen clínico de mama. Si un
examen clínico de mama se va a aplicar en la práctica y sin lecturas mamográficas
16
concurrentes disponibles, entonces las evaluaciones deben reflejar esto en el
estudio de investigación.
e) Los resultados de un test inadecuado o insatisfactorio aparecen en la práctica y
no siempre está claro cómo deberían ser tratados en la evaluación de un estudio
de investigación. Por ejemplo, en una prueba de audio realizada en bebes
requiere que los bebes no empiecen a llorar, sino se para la prueba. Si estos
resultados son omitidos de los análisis, podrían ocurrir que obtengamos mejores
resultados de lo que en realidad es. Sin embargo, su inclusión también podría ser
problemática ya que si suponemos que todos estos resultados inadecuados son
negativos, no llegaríamos a una detección correcta de la presencia o ausencia de
la enfermedad. Discusiones sobre este tema se pueden encontrar en Begg et al.
(1986).
f) Varios factores externos pueden afectar a la realización de un test para detectar
la enfermedad: factores relacionados con el paciente (demográficos, hábitos
saludables, complicaciones, veracidad), factores relacionados con el ensayador
(experiencia, entrenamiento), factores relacionados con el medio en el que la
prueba es recogida (institución, fuentes disponibles y opciones de tratamiento,
prevalencia de la enfermedad de la población) y muchos más.
El sesgo de extrapolación se observa cuando se extrapola los resultados de un
estudio a otras poblaciones que tienen factores que influencian la precisión del
test muy distintos a la población “original” de estudio.
A continuación, se explicarán detalladamente todos aquellos factores que afectan a los
resultados de un test binario.
2.2. Enumeración y caracterización de los factores que afectan al
funcionamiento de un test diagnóstico binario.
En la práctica clínica, el diagnóstico de la enfermedad se hace sobre la base de las
características del paciente y de los resultados de las pruebas diagnóstico. El proceso de
diagnóstico es secuencial, y se basa en las características del paciente, tales como la
historia clínica y los signos y síntomas en el examen clínico, y sobre resultados de las
pruebas diagnósticas previas.
17
Una mayor seguridad es importante cuando las decisiones de falsos positivos o falsos
negativos tienen consecuencias adversas para la salud de los pacientes. La disminución
de los costos de estas consecuencias adversas debe ser considerada frente al
incremento en los costos de las pruebas adicionales, en particular cuando las pruebas
de diagnóstico son caras o cuando suponen una carga física o emocional para los
pacientes.
La medida en la que las pruebas adicionales pueden aumentar la certeza del diagnóstico
está indicada por el cambio en la probabilidad de la enfermedad antes y después de la
prueba. Este cambio puede ser evaluado por el estimador de máxima verosimilitud (LR)
de los resultados de la prueba, que es la magnitud del cambio entre las probabilidades
anteriores y posteriores de la enfermedad. El LR de la prueba se define como la
probabilidad del test resultante entre sujetos que tienen la enfermedad dividido por la
probabilidad del test resultante entre sujetos que no tienen la enfermedad. El LR de la
prueba es superior a 1 cuando el resultado es más frecuente entre los sujetos enfermos
que entre aquellos que no tienen la enfermedad. La LR es inferior a 1 cuando el resultado
de la prueba es más frecuente entre las personas que no tienen la enfermedad.
En la investigación del diagnóstico, los LR de la prueba son generalmente considerados
en una sola estimación de la población total del estudio, a pesar de que se sabe que el
LR, al igual que otras características de la prueba, tales como la sensibilidad y la
especificidad, puede variar entre los diferentes perfiles de riesgo de los pacientes. En la
práctica clínica, uno está interesado en el valor de las pruebas adicionales a nivel del
paciente individual y, por lo tanto, en los LR de pruebas diagnóstico que tengan en
cuenta el perfil de riesgo del paciente.
El perfil de riesgo se define como un conjunto de variables que se asocian con el riesgo
de la enfermedad y se conocen antes de la prueba. Los LR condicionales en los perfiles
de riesgo de los pacientes se pueden calcular en los subgrupos de pacientes cuando el
perfil de riesgo se define por un número limitado de características dicotómicas o
categóricas. Sin embargo, en muchas situaciones, este enfoque será sub-óptimo porque
el número de características de los pacientes en el perfil de riesgo general es demasiado
18
grande para el análisis de subgrupos fiables o porque se incluyen variables continuas
dicotomizadas que se traducirá en la pérdida de la información.
Por estas razones, se han desarrollado varios métodos de regresión para obtener los LR
de pruebas de diagnóstico condicionales al perfil de riesgo del paciente.
Luego, las estimaciones de estratos específicos se obtienen mediante la inclusión de
covariables en la ecuación de regresión tales como las categorías de edad, sexo o
antecedentes de enfermedad concomitante o síntomas. Este enfoque de modelado
puede ser útil para obtener estimaciones suavizadas de sensibilidad, especificidad y
valores predictivos, cuando no es práctico el cálculo de estas medidas directamente para
estratos pequeños debido a las limitaciones del tamaño de muestra.
Gran parte de la literatura aplicada en las pruebas médicas supone que el rendimiento
de prueba es una entidad constante. Begg (1987) y Kraemer (1992), entre otros, han
lamentado el estado de esta situación. Hlatky et al. (1984) identificaron los predictores
clínicos importantes de esta variación (covariables), y llegaron a la conclusión de que los
factores covariables que afectan a la sensibilidad de esta prueba eran diferentes de los
que afectan a su especificidad. Coughlin et al. (1992) idearon un método para estimar la
sensibilidad y especificidad como una función de tales covariables. En pocas palabras,
identifican algún subconjunto de covariables (incluyendo el estado de la enfermedad tal
como se define por el procedimiento de la supuesta verificación) como variables
independientes, junto con la presencia o ausencia de la respuesta de prueba como
variable dependiente, y utilizar estas variables para el análisis de regresión logística. El
conjunto resultante de los coeficientes de regresión permite el cálculo de la probabilidad
de la respuesta de la prueba dado el conjunto de covariables.
Consideremos unos ejemplos específicos de factores relaciones con el test en cuestión
que pueden afectar al resultado del test. Primero, la habilidad de una mamografía para
detectar el cáncer de mama depende de la edad de la mujer. Las mujeres más jóvenes
tienen el tejido del seno más denso y esto hace que la mamografía sea más difícil de
interpretar. Segundo, en la evaluación de una prueba de esfuerzo, el sexo debería ser
considerado como una covariable potencial porque los hombres y las mujeres difieren
es sus habilidades para llevar a cabo un ejercicio físico. Finalmente, la salud de un bebe
19
o una enfermedad neurológica podría verse influenciada por su habilidad para
responder a un test audiológico. Las características de los sujetos de estudio deben ser,
por tanto, consideradas cuando se lleva a cabo la interpretación del test. Un test que se
ajusta bien a una población, podría no ajustarse bien en otra.
Algunos factores que pueden afectar a la realización del test son:
Factores Ejemplos
Sujetos Edad, género, hábitos saludables Ensayador Experiencia, entrenamiento Test Protocolo, condiciones operables Medio Localización, recursos sanitarios Enfermedad Severidad, histología Estado de no enfermedad Normal o condición no normal
Tabla 2. Algunos factores que pueden afectar un test binario de dos muestras
Las características del ensayador pueden afectar a la realización del test. Por ejemplo,
el entrenamiento de las personas que realizan el test puede afectar a sus resultados.
Una persona con buen entrenamiento en audiología o experiencia en el uso del equipo
del test obtendrá resultados más precisos y exitosos del test que un ensayador sin
experiencia ni entrenamiento. También, las variaciones en cómo el test es llevado a cabo
deberían ser consideradas covariables importantes. Por ejemplo, el medio físico en el
que el test es llevado a cabo debería ser considerado en pruebas de audio donde el
ambiente de silencio de una habitación donde se realiza la prueba juega un papel muy
importante. Los factores ambientales no físicos también pueden afectar el resultado de
la prueba. Estos incluyen la disponibilidad de recursos para el cuidado de la salud y la
prevalencia de la enfermedad, los cuales pueden influir en los criterios para la
clasificación de un resultado positivo. Los criterios de positividad podrán ser más
rigurosas en entornos con menos recursos y/o una mayor prevalencia de la enfermedad.
Las características de la enfermedad a menudo afectarán la realización del test. Claro
es, que cuanto más avanzada esté la enfermedad, más fácil será su detección. Es
sorprendente que en la práctica está covariable a menudo no forma parte de los análisis
de los resultados. Esto podría incluir la histología y el grado de detección del cáncer y el
subtipo de bacteria que se está testando. Los sujetos que son hospitalizados o acuden a
20
emergencias con el mismo cuadro clínico podrían tener características que lleven a un
resultado falso positivo. En la investigación del cáncer de próstata, por ejemplo, los
sujetos con un tumor benigno tienden a tener mayores niveles de PSA y de aquí podrían
tener mayor probabilidad de obtener resultados de falsos positivos que aquellos
controles con niveles normales de la próstata.
2.3. Ejemplo práctico
A continuación se presenta un ejemplo de un estudio donde se muestran las diferencias
de sensibilidad y especificidad entre distintas poblaciones.
La tira radiactiva (TR) se utiliza como primera prueba para la determinación de la
infección urinaria. Por ello se desea conocer la sensibilidad y la especificidad de la misma
frente al que se considera patrón de oro para dicha determinación que es el urocultivo.
Sin embargo, se sospecha que la sensibilidad y la especificidad de la prueba depende de
que el paciente sea un niño o un adulto por lo que Cristina la Torre et al. (2001)
plantearon un estudio que permitió comparar dichos parámetros en las dos
poblaciones. En la tabla 3 se presentan los datos del estudio:
Niños Adultos
Infección Total Infección Total
Si No Si No
TR + 57 211 268 TR + 29 222 251
- 17 262 279 - 3 286 289
Total 74 473 547 Total 32 508 540
Tabla 3. Datos del problema expuesto por Cristina la Torre et al. (2001) para niños y
para adultos
A partir de esta tabla se pueden estimar la sensibilidad y especificidad para cada una de
las poblaciones (niños y adultos) de manera puntual como por intervalos:
21
Niños Adultos
Estimaciones puntuales
�̂� =57
57 + 17= 0,7703 �̂� =
29
29 + 3= 0,9063
�̂� =262
262 + 211= 0,5539 �̂� =
286
286 + 222= 0,5630
Estimaciones por intervalos
𝑟1̂ =57
57 + (17 + 1)𝐹0,025[36; 114]= 0,6579
𝑟2̂ =(57 + 1)𝐹0,025[116; 34]
17 + (57 + 1)𝐹0,025[116; 34]= 0,8601
𝑟1̂ =29
29 + (3 + 1)𝐹0,025[4; 58]
= 0,7498
𝑟2̂ =(29 + 1)𝐹0,025[60; 6]
3 + (29 + 1)𝐹0,025[60; 6]
= 0,9802 𝑠1̂
=262
262 + (211 + 1)𝐹0,025[424; 524]
= 0,5078 𝑠2̂
=(262 + 1)𝐹0,025[526; 422]
211 + (262 + 1)𝐹0,025[526; 422]
= 0,5993
𝑠1̂
=286
286 + (222 + 1)𝐹0,025[446; 572]
= 0,5186 𝑠2̂
=(286 + 1)𝐹0,025[574; 444]
222 + (286 + 1)𝐹0,025[574; 444]
= 0,6066
Tabla 4. Resultados de la sensibilidad y especificidad del problema expuesto por
Cristina la Torre et al. (2001) para cada población
En esta tabla (tabla 4) se observa que para ambas poblaciones el test es más útil para
detectar la infección que para descartarla. Sin embargo, se obtiene que prueba es
mucho más sensible y específica en la población adulta. Si no se distinguiera entra ambas
poblaciones, se obtendría:
Infección Total
Si No
TR + 86 433 519
- 20 548 568
Total 106 981 1087
Tabla 5. Datos del problema expuesto por Cristina la Torre et al. (2001) para ambas
poblaciones combinadas
Se obtiene su sensibilidad y especificidad correspondientes:
22
Estimaciones puntuales �̂� =
86
86 + 20= 0,811
�̂� =548
548 + 433= 0,558
Estimaciones por intervalos
𝑟1̂ =86
86 + (20 + 1)𝐹0,025[42; 172]= 0.725
𝑟2̂ =(86 + 1)𝐹0,025[174; 40]
20 + (86 + 1)𝐹0,025[174; 40]= 0.887
𝑠1̂ =548
548 + (433 + 1)𝐹0,025[868; 1096]= 0.549
𝑠2̂ =(548 + 1)𝐹0,025[1098; 866]
433 + (548 + 1)𝐹0,025[1098; 866]= 0.566
Tabla 6. Resultados de la sensibilidad y especificidad del problema expuesto por
Cristina la Torre et al. (2001) para cada la combinación de ambas poblaciones
Observamos que los valores de la sensibilidad y especificidad vuelven a cambiar, siendo
el test menos sensible que si se distingue entre ambas poblaciones.
Por tanto, la influencia de estas características debería ser investigada cuando se
evalúan las fracciones de falsos positivos asociadas con el test. En la siguiente sección se
describirá como abordar las covariables que pueden afectar a un test diagnóstico
binario.
2.4. Modelos lineales generalizados para la determinación del funcionamiento
de un test diagnóstico binario con covariables: modelos para la
determinación de la sensibilidad y de la especificidad y de la razón de
verosimilitudes.
Hemos aludido anteriormente la necesidad de evaluar los factores que afectan al
desempeño de un test diagnóstico. La evaluación simultánea de múltiples factores e
interacciones entre los factores pueden analizarse a través de la regresión.
También podemos comparar tests diagnósticos en el marco de la regresión. Una de las
ventajas de utilizar la regresión para comparar tests es que el análisis controla los
factores simultáneamente. En los estudios observacionales, esto reduce,
potencialmente, la confusión. Incluso en estudios experimentales, la regresión puede
aumentar la precisión con la que ésta es estimada. Pueden formularse y responderse
23
preguntas más complejas, tales como si la precisión relativa varía o no con las
covariables. Un test podría encajar mejor que otro pero únicamente bajo ciertas
características. Además, podría ser de interés determinar el valor incremental de un test
sobre otra información ya disponible. Por ejemplo, cuando se llevan a cabo varios tests,
¿cuál de ellos detecta la enfermedad que otro cualquiera no lo haya hecho ya?
Supongamos que 𝑍 es el conjunto de covariables de interés. Sea 𝑋(𝑍) las variables
específicas introducidas en el modelo. Por ejemplo, si 𝑍 es la covariable sexo, entonces
el modelo estadístico podría incluir una covariable 𝑋(𝑍) codificada como 0 para los
hombres y como 1 para las mujeres. Si la covariable tuviese más categorías, se define
𝑋(𝑍) = (𝑋1(𝑍), 𝑋2(𝑍)) , donde la variables dummy 𝑋𝑖(𝑍) = 1, para i-esima categoría,
tomando el valor 0 en el resto de las categorías. Si la covariable Z es la edad, 𝑋(𝑍) podría
ser una variable ordinal donde 𝑋(𝑍) = 𝑘, si la edad del sujeto está en el intervalo k-
esimo, o 𝑋(𝑍) podría ser la edad medida en años. Encontramos útil distinguir entre la
entidad de 𝑍 y la forma de codificar 𝑋(𝑍). Para simplificar la notación escribiremos 𝑋 en
vez de 𝑋(𝑍), teniendo en cuenta que las covariables de 𝑋 son funciones numéricas de
𝑍.
A continuación, se muestran las fórmulas para obtener los LRs, odds ratios, sensibilidad
y especificidad de un test diagnóstico binario (tabla 7):
Enfermedad
+ -
Test + a b
- c d
Odds (𝐷+) = 𝑎 + 𝑐 𝑏 + 𝑑⁄ = 𝑒𝛽00
Odds (𝐷+/𝑇+) = 𝑎 𝑏⁄ = 𝑒𝛽01+𝛽11
Odds (𝐷+/𝑇−) = 𝑐 𝑑⁄ = 𝑒𝛽01
Likelihood ratio (𝐿𝑅+)=𝑎
𝑎+𝑐
𝑏
𝑏+𝑑⁄ =
𝑎
𝑏
𝑏+𝑑
𝑎+𝑐⁄ = 𝑒𝛽01+𝛽11 𝑒𝛽00⁄ = 𝑒𝛽01+𝛽11−𝛽00
Likelihood ratio (𝐿𝑅−) =𝑐
𝑎+𝑐
𝑑
𝑏+𝑑⁄ =
𝑐
𝑑
𝑏+𝑑
𝑎+𝑐⁄ = 𝑒𝛽01 𝑒𝛽00⁄ = 𝑒𝛽01−𝛽00
Odds ratio (OR) = 𝑎 ∗ 𝑑 𝑏 ∗ 𝑐⁄ =𝑎
𝑏
𝑐
𝑑⁄ = 𝑒𝛽01+𝛽11 𝑒𝛽01 = 𝑒𝛽11⁄
Sensibilidad 𝑆𝑒 = 𝑎 𝑎 + 𝑐⁄ = (𝐿𝑅+ − 𝑂𝑅)/(1 − 𝑂𝑅) Especificidad 𝑆𝑝 = 𝑑 𝑏 + 𝑑⁄ = (1/𝐿𝑅− − 𝑂𝑅)/(1 − 𝑂𝑅)
Tabla 7. Fórmulas para los LR, odds ratio, sensibilidad y especificidad para un test
diagnóstico binario
24
El modelo de regresión logística, que se aplica con muchísima frecuencia en la
investigación epidemiológica (Breslow et al. (1983), Kleinbaum et al. (1982), Hlatky et
al. (1984) y Schlesselman et al. (1982)), puede ser utilizado para la estimación de la
sensibilidad y la especificidad mediante la definición de la variable dependiente (Y) como
variable dicotómica, donde Y=1 si la enfermedad está presente, e Y=0 en caso contrario.
En este caso Y es el resultado del test diagnóstico que se está probando. A diferencia de
las aplicaciones anteriores del modelo logístico, la presencia o ausencia de la
enfermedad, según la definición del "gold standard", se incluye como una variable
binaria explicativa (𝑋1), junto con las variables utilizadas para definir los subgrupos de
interés. Por lo tanto, las odd del log de la presunta enfermedad se modelan como una
función lineal de (1,…,j) variables explicativas, una de las cuales corresponde con los
resultados binarios del "gold standard", junto con sus coeficientes β (Breslow et al.
(1983) y Kleinbaum et al. (1982)):
𝑙𝑜𝑔𝑖𝑡 Pr(𝑌 = 1|𝑋) = 𝛽0 + ∑ 𝛽𝑗𝑋𝑗
𝑘
𝑗=1
Este modelo de regresión se puede generalizar (Sackett DL et al. (1985)) de manera que:
𝑙𝑜𝑔𝑖𝑡 Pr(𝑌 = 1|𝑋) = 𝛽0 + ∑ 𝛽𝑗𝑋𝑗
𝑘
𝑗=1
ó 𝛽0𝑘 + ∑ 𝛽𝑗𝑘𝑋𝑗
𝑘
𝑗=1
En la segunda ecuación, se añade un índice adicional (k) al coeficiente de regresión para
distinguir entre los coeficientes de los modelos de regresión a priori y a posteriori: 𝛽𝑗𝑘
se refiere a los coeficientes del modelo de regresión a posteriori, que incluye k variables,
y 𝛽𝑗,𝑘−1 se refiere a los coeficientes del modelo a priori, que incluye k-1 variables porque
la prueba de interés no está incluida (tabla 8a). En estos modelos de regresión, 𝛽0𝑘 es el
logaritmo neperiano de las odds de la enfermedad cuando los valores de todas las
variables (𝛽𝑗𝑘) son cero y 𝑋𝑗 es el logaritmo neperiano de la odds de la variable j. Para
una prueba dicotómica de diagnóstico, en el test k, el logaritmo neperiano de la odds es
la razón de las ventajas de la enfermedad cuando 𝑥𝑘=1 en comparación con las
probabilidades de enfermedad cuando 𝑥𝑘=0, ajustado por las demás variables del
modelo. El LR de los resultados de esta prueba se obtiene como la relación de las
25
probabilidades de enfermedades a posteriori, cuando 𝑥𝑘 es 1 (LR +) o 0 (LR-), en
comparación con las probabilidades a priori cuando la prueba k aún no se ha realizado.
Estos LRs no siguen directamente un modelo de regresión logística, sino que requieren
la comparación entre los modelos de regresión a priori y a posteriori. Para este
propósito, se propone volver a escribir el modelo de regresión para el logaritmo
neperiano de las odds a posteriori de tal manera que incluye los coeficientes del
logaritmo neperiano de las odds a priori.
a. Modelo de regresión logístico convencional
Ln(post 0 test odds)=ln (prior 1 test odds)=𝛽00 Ln(post 1 test odds)=ln (prior 2 test odds)=𝛽01 + 𝛽11𝑥1 Ln(post 2 test odds)=ln (prior 3 test odds)=𝛽02 + 𝛽12𝑥1 + 𝛽22𝑥2
b. Modelo de regresión logístico reformulado
Ln(post 0 test odds) =𝛽00 Ln(post 1 test odds) =𝛽01 + (𝛽11 − 𝛽00) + 𝛽11 𝑥1 Ln(post 2 test odds)=𝛽01 + 𝛽11𝑥1 + (𝛽02 − 𝛽01) + (𝛽12 − 𝛽11)𝑥1+ 𝛽22𝑥2
Tabla 8. Ejemplos de modelos de regresión logística convencional y reformulado
Obtenemos, ahora, el modelo de regresión logística reformulado:
ln(𝑜𝑑𝑑𝑠 𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖) = 𝛽0𝑘 + ∑ 𝛽𝑗𝑘𝑋𝑗
𝑘−1
𝑗=1
+ 𝛽𝑘𝑘𝑥𝑘
En esta ecuación, 𝛽0𝑘 + ∑ 𝛽𝑗𝑘𝑋𝑗𝑘−1𝑗=1 no se refiere al modelo de regresión para las odds a
priori porque los coeficientes de regresión (𝛽0𝑘 y 𝛽𝑗𝑘) generalmente cambian cuando se
añade una variable al modelo debido a la correlación entre variables. En otras palabras,
𝛽0𝑘 ≠ 𝛽0,𝑘−1 y 𝛽𝑗𝑘 ≠ 𝛽𝑗,𝑘−1. Para una reformulación del modelo de regresión del
logaritmo neperiano de las odds a posteriori se incluye los coeficientes del logaritmo
neperiano de las odds a priori. Las ecuaciones de regresión reformulada, presentados
en la tabla 8b, incluyen los coeficientes del modelo a priori (𝛽0,𝑘−1 y 𝛽𝑗,𝑘−1) y las
correcciones para cada covariable (𝛽0𝑘-𝛽0,𝑘−1 y 𝛽𝑗𝑘-𝛽𝑗,𝑘−1). Una generalización de los
modelos de regresión reformuladas puede escribirse como:
26
ln(𝑜𝑑𝑑𝑠 𝑎 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟𝑖)
= 𝛽0,𝑘−1 + ∑ 𝛽𝑗,𝑘−1𝑥𝑗
𝑘−1
𝑗=1
+ (𝛽0𝑘 − 𝛽0,𝑘−1) + ∑(𝛽𝑗𝑘 − 𝛽𝑗,𝑘−1)𝑥𝑗
𝑘−1
𝑗=1
+ 𝛽𝑘𝑘𝑥𝑘
En este modelo 𝛽0,𝑘−1 + ∑ 𝛽𝑗,𝑘−1𝑥𝑗𝑘−1𝑗=1 es del logaritmo neperiano de las odds del
modelo de regresión a priori. Por tanto,
ln(𝐿𝑅 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑛𝑡𝑒 𝑑𝑒 𝑥𝑘|𝑥1 … 𝑥𝑘−1)
= (𝛽0𝑘 − 𝛽0,𝑘−1) + ∑(𝛽𝑗𝑘 − 𝛽𝑗,𝑘−1)𝑥𝑗
𝑘−1
𝑗=1
+ 𝛽𝑘𝑘𝑥𝑘
El LR de los resultados del test k (𝑥𝑘) condicionado en los valores de las covariables
(𝑥1, … , 𝑥𝑘−1) puede por lo tanto obtenerse restando los coeficientes del modelo de
regresión a priori de los coeficientes del modelo a posteriori. Las dos fórmulas anteriores
definidas son fórmulas generales para las probabilidades a posteriori y los LR de los
modelos de regresión cuando se consideran sólo los efectos principales de las variables.
La sensibilidad de la prueba de detección puede estimarse para un subgrupo en
particular, utilizando la ecuación:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =1
1 + exp [−(𝛽0 + ∑ 𝛽𝑗𝑋𝑗𝑘𝑗=1 )]
𝑑𝑜𝑛𝑑𝑒 𝑋1 = 1
se deriva a través de Cornfield (1962) para estimar los riesgos de específicos estratos de
la enfermedad cardíaca coronaria en la población de Framingham. La variable binaria
que indica los resultados del "gold standard" (𝑋1) se le asigna el valor 1, y las variables
explicativas restantes son los valores correspondientes al subgrupo de interés asignado.
La ecuación de la especificidad es análoga aunque 𝑋1 = 0:
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 = 1 − {1
1 + exp[−(𝛽0 + ∑ 𝛽𝑗𝑋𝑗𝑘𝑗=1 )]
} 𝑑𝑜𝑛𝑑𝑒 𝑋1 = 0
27
La varianza del logit de la sensibilidad de la prueba de detección del nivel de la covariable
𝑋2∗ se puede calcular utilizando la matriz de varianza-covarianza proporcionada por la
mayoría de los programas de software estadístico de regresión logística.
Por ejemplo, si no hay covariables adicionales: 𝑉𝑎𝑟[ln(𝑝1̂ 1 − 𝑝1̂⁄ )] = 𝜎2, entonces el
intervalo de confianza del nivel de la covariable 𝑋2∗ viene dado por:
1
1 + exp[−(𝛽0̂ + 𝛽1̂ + 𝛽2̂𝑋2∗) ± 1.96√𝜎2]
La varianza y el error estándar de esta estimación [𝑉𝑎𝑟[ln(𝑝1̂ 1 − 𝑝1̂⁄ )] = 𝜎2] se
determinan por la precisión de los parámetros estimados usando el modelo logístico. La
precisión de los p-coeficientes puede estar influida por el tamaño de la muestra, la
prevalencia de la enfermedad, y la manera en que se codifican las variables. Una
inspección de la matriz de varianza-covarianza puede proporcionar información acerca
de la contribución relativa de cada variable a la varianza total.
El valor predictivo de una prueba positiva o negativa también puede ser modelado
utilizando este método. Sin embargo, la variable dependiente (Y) se debe especificar
para ser el resultado del "gold standard", y los resultados de la prueba de detección
incluidos entre las variables explicativas (𝑋1). Los valores predictivos positivos y
negativos de la prueba de detección pueden entonces ser estimadas usando las
ecuaciones de la sensibilidad y especificidad respectivamente.
Este enfoque basado en el modelo difiere de los métodos tradicionales en varios
aspectos. En primer lugar, el uso del modelo logístico proporciona un medio de evaluar
y ajustar por covariables explicativas. En segundo lugar, se propone utilizar todos los
datos para el modelo, no sólo información de las personas que han demostrado tener la
enfermedad (o demostrado que no tienen la enfermedad) mediante la prueba "gold
standard". Esta segunda característica incorpora a la información del modelo las
covariables de personas que eran positivas y negativas por el "gold standard" de la
prueba, por lo tanto maximizan la información disponible del conjunto de datos.
Con el fin de examinar los efectos de la inclusión de estas personas no enfermas en el
modelo, se realizó un estudio de simulación del funcionamiento de la medida de
28
sensibilidad. Suponiendo que deseamos ajustar para una sola covariable dicotómica,
que generamos una muestra de números aleatorios binomiales para simular tablas 2x2
como la mostrada en la tabla 9.
Gold standard
Positivo Negativo
Prueba de detección
Positivo 𝑛11 𝑛12 𝑛1.
Negativo 𝑛21 𝑛22 𝑛2.
𝑛.1 𝑛.2 𝑛..
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑛11/𝑛.1
𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝑛22/𝑛.2
𝑣𝑎𝑙𝑜𝑟 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑜 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 = 𝑛11/𝑛1.
𝑣𝑎𝑙𝑜𝑟 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑣𝑜 𝑑𝑒𝑙 𝑡𝑒𝑠𝑡 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑜 = 𝑛22/𝑛2.
Tabla 9. Tabla de contingencia general para la sensibilidad, especificidad y valores
predictivos de una prueba de detección
La sensibilidad y la especificidad esperada en cada estrato de la covariable varió del 60
a 90%, y la prevalencia del estrato específico (de acuerdo con el "gold standard") varió
del 5 a 50%. Para cada una de estas combinaciones de condiciones, se generaron 500
pares de tablas, la mitad con tamaños específicos de cada estrato de la muestra de 100
y la mitad con tamaños de muestra de 250. La comparación de la sensibilidad estimada
de modelos logísticos incluyendo y excluyendo personas no enfermas ("gold standard"
negativo) mostró en promedio diferencias <2% en las dos estimaciones para el tamaño
de la muestra más pequeña y diferencias <1% para muestras más grandes. La
comparación de la sensibilidad esperada estimada de los parámetros de la simulación
mostró que cualquiera de los métodos generalmente proporciona estimaciones
sesgadas de la real sensibilidad. Sin embargo, se observó una diferencia del 25% en las
estimaciones con y sin personas no enfermas para muestras donde las prevalencias en
los dos estratos de covarianza fueron del 5 y el 50%, respectivamente. Para estas tablas,
la estimación basada sólo en personas enfermas estaba dentro de 7% del valor
esperado, mucho más cerca que la basada en toda la muestra.
En situaciones en las que la prevalencia de la enfermedad varía mucho entre estratos
(por ejemplo, una diferencia de 10 veces o más) este sesgo potencial se puede corregir
mediante la adición de una enfermedad como interacción de covariables en el modelo,
29
restringiendo el análisis a los estratos de covarianza con cifras de prevalencia similares,
o mediante el uso de sólo el grupo de enfermos para el modelado de la sensibilidad.
El método de la regresión también puede ser útil para el modelado de la sensibilidad
relativa de dos procedimientos de detección. Las estimaciones de la sensibilidad
relativa, como discutió Schatzkin et al. (1987), se utilizan en la comparación de la
sensibilidad de una nueva prueba de cribado con el de un procedimiento existente,
sobre todo cuando la información sobre la situación sanitaria de las personas con
resultados negativos en ambas pruebas de detección es insuficiente. Esta situación se
presenta en la práctica cuando dos pruebas de detección se realizan en los sujetos y,
debido a consideraciones éticas o de otro tipo, sólo las personas que obtienen un
resultado positivo en una o ambas pruebas están completamente evaluados
clínicamente para establecer la presencia o ausencia de enfermedad.
Primer test Segundo test
Gold standard Gold standard
Positivo
Negativo
Positivo
Negativo
Prueba de detección
Positivo 𝑛11′ 𝑛12′ Positivo 𝑛11 ∗ 𝑛12 ∗
Negativo
(𝑛21′) (𝑛22′) Negativo
(𝑛21 ∗) (𝑛22 ∗)
(𝑛.1) (𝑛.2) (𝑛..) (𝑛.1) (𝑛.2) (𝑛..)
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =
𝑛11′ 𝑛.1⁄
𝑛11∗ 𝑛.1⁄
= 𝑛11′ 𝑛11
∗⁄
Tabla 10. Tabla de contingencia general para la sensibilidad relativa de una prueba de
detección (los valores entre paréntesis son desconocidos)
La tabla 10 resume la situación general en la que se aplican las dos pruebas de detección.
Puesto que el estado real de la enfermedad de las personas que obtienen un resultado
negativo en las dos pruebas de detección se desconoce, las sensibilidades de las dos
pruebas de cribado (𝑛11′ 𝑛.1⁄ y 𝑛11
′′ 𝑛.1⁄ ) son también desconocidos. Sin embargo, una
estimación imparcial de la sensibilidad relativa de las dos pruebas está proporcionada
por:
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =𝑛11
′ 𝑛.1⁄
𝑛11′′ 𝑛.1⁄
= 𝑛11′ 𝑛11
′′⁄
30
Utilizando los datos sólo para aquellas personas que dieron positivo en una o ambas
pruebas, las estimaciones específicas de los estratos de sensibilidad relativa se pueden
obtener mediante el ajuste de dos modelos logísticos que incluyen los resultados del
"gold standard" como una variable explicativa binaria (𝑋1), de las variables que definen
los subgrupos de interés. En cada modelo, la variable dependiente se define como el
resultado dicotómico de la prueba de detección respectiva. La ecuación
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =1
1 + exp [−(𝛽0 + ∑ 𝛽𝑗𝑋𝑗𝑘𝑗=1 )]
𝑑𝑜𝑛𝑑𝑒 𝑋1 = 1
se puede usar entonces para obtener estimaciones basadas en modelos de la
sensibilidad de cada prueba de detección de un sub-grupo en particular. Aunque estas
estimaciones individuales están sesgadas por la falta de información para los sujetos que
dieron negativo en ambas pruebas de detección, la relación de las dos estimaciones
basadas en modelos de sensibilidad obtenida de esta manera proporciona una
estimación razonable de la sensibilidad relativa de las dos pruebas para el subgrupo de
interés, como se discutió anteriormente en relación con las sensibilidades calculadas
directamente (𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =𝑛11
′ 𝑛.1⁄
𝑛11′′ 𝑛.1⁄
= 𝑛11′ 𝑛11
′′⁄ ).
El valor predictivo de una prueba de detección depende de la prevalencia de la
enfermedad de la población de interés. En consecuencia, los factores relacionados con
el riesgo de la enfermedad, como la edad, el sexo o hallazgos clínicos, influyen en la
capacidad predictiva de la prueba. Además, la sensibilidad y especificidad de una prueba
pueden verse afectadas por factores tales como la gravedad de la enfermedad o la
presencia de enfermedad concomitante. Como resultado, a menudo es deseable para
estimar estas medidas de la validez de una prueba de diagnóstico por separado para
diversos subgrupos. Sin embargo, si el número de categorías posibles es grande, puede
ser necesario una población grande para obtener estimaciones razonables,
especialmente si la enfermedad es rara en la población de cribado. Anteriormente, otros
autores han aplicado con éxito procedimientos estadísticos multivariantes en
situaciones en las que las pruebas de detección se realizan repetidamente en el tiempo,
como en un programa de cribado de múltiples etapas.
31
Dado que los factores clínicos pueden afectar a la sensibilidad y especificidad de una
prueba diferente, es necesario añadir una o más enfermedades en términos de
interacción con las enfermedades del modelo o para adaptarse a modelos distintos para
la sensibilidad y especificidad al estratificar por el estado de la enfermedad. Sin
embargo, debido a que los resultados de la prueba de detección están siendo modelados
y no la sensibilidad y especificidad, las variaciones en la sensibilidad y especificidad en
todos los estratos no requieren necesariamente la inclusión de términos de interacción.
En un análisis multivariado llevado a cabo por Hlatky et al. (1984) sobre los factores que
afectan a la sensibilidad y especificidad de la prueba de esfuerzo de una
electrocardiográfica, se ajustaron a los datos de las personas con y sin enfermedad
coronaria confirmada por cateterismo cardíaco modelos separados de sensibilidad y
especificidad. Aunque se encontró que cinco factores (tipo de ejercicio máximo del
corazón, número de arterias coronarias enfermas, tipo de angina de pecho, la edad del
paciente y sexo) podían tener efectos significativos e independientes sobre la
sensibilidad del esfuerzo de la electrocardiográfica, sólo la frecuencia cardíaca máxima
del ejercicio fue significativa.
El número de variables explicativas que pueden ser incluidas en el modelo para la
exactitud y precisión de las estimaciones de sensibilidad y especificidad es específico de
los datos y depende del tamaño de la muestra disponible.
El modelo logístico asume una relación de interacción entre las covariables incluidas en
el modelo de regresión (Breslow et al. (1983) y Kleinbaum et al. (1982)). El análisis
discriminante se puede usar para estimar la sensibilidad y especificidad, ajustado por
variables externas, mediante la utilización de estimaciones de probabilidades a
posteriori Jackknife (Ahnve et al. (1986) y Afifi et al. (1984)). La elección de un modelo
debe basarse en cambio en la bondad relativa del ajuste de los modelos alternativos, y
de si sus respectivos supuestos se cumplen adecuadamente. Los supuestos de
normalidad e igualdad de varianzas, que se aplican al análisis discriminante, no son
requeridos por el modelo logístico cuando los β-coeficientes se calculan utilizando las
técnicas de estimación de máxima verosimilitud (LR) (Breslow et al. (1983) y Afifi et al.
(1984)). En los modelos para sensibilidad, especificidad y valores predictivos positivos y
negativos, la primera variable independiente es binaria (los resultados de cualquiera de
32
los "gold standard" o pruebas de detección), y tiene una distribución binomial. En vista
de esto, el enfoque de la regresión logística es teóricamente preferible al análisis
discriminante ya que no se asume ninguna distribución para 𝑥1, … , 𝑥𝑘 y se obtienen
estimaciones de los β-coeficientes que convergen asintóticamente a los valores reales,
siempre y cuando el modelo logístico sea adecuado (Afifi et al. (1984) y Halperin et al.
(1971)).
Por lo tanto, este método de regresión puede proporcionar un enfoque útil para la
estimación de la sensibilidad, especificidad y valores predictivos para subgrupos
particulares en estudios clínicos y epidemiológicos. Esto se aplicará a tres situaciones
diferentes en el capítulo siguiente de este trabajo.
33
3. Tres problemas que requieren la modelización multivariante para el
ajuste: sensibilidad y especificidad ajustadas.
Se utilizará el software Stata 12 para los análisis estadísticos así como Microsoft Excel
2013 para cálculos sencillos.
3.1. Ejemplo del artículo de Janssens-2005, estimaciones de la sensibilidad, la
especificidad y de la razón de verosimilitudes
Janssens et al. (2005) propusieron el siguiente problema que vamos a resolver. El “gold
standard” para el diagnóstico de estenosis de la arteria renal, angiografía renal, en
pacientes con hipertensión resistentes al tratamiento es invasivo y costoso. Por esa
razón, se ha desarrollado una regla de predicción. Se incluyen las siguientes
características para predecir la presencia de la estenosis de la arteria renal: edad, sexo,
enfermedad vascular aterosclerótica y la concentración de creatinina sérica (Crs). Para
ilustrar el método propuesto, se consideran las siguientes preguntas: 1) ¿Cómo se
prueba para la concentración de creatinina sérica puede cambiar la predicción de la
estenosis de la arteria renal? y 2) ¿Qué características del paciente modera el valor LR
de las pruebas de concentración de creatinina sérica? Se incluyeron en los análisis
(n=426), y los niveles de creatinina sérica fueron dicotomizados arbitrariamente en la
mediana: niveles de Crs<90 mol/l (niveles bajos) o Crs≥90 mol/l (niveles altos).
Los datos agrupados se presentan en la siguiente tabla (tabla 11):
34
sexo edad creatinina enfermedad frecuencia
mujer ≥50 ≥90 1 17 mujer ≥50 ≥90 0 20 mujer ≥50 <90 1 10 mujer ≥50 <90 0 47 mujer <50 ≥90 1 10 mujer <50 ≥90 0 13 mujer <50 <90 1 10 mujer <50 <90 0 65 hombre ≥50 ≥90 1 39 hombre ≥50 ≥90 0 66 hombre ≥50 <90 1 3
hombre ≥50 <90 0 40 hombre <50 ≥90 1 7 hombre <50 ≥90 0 48 hombre <50 <90 1 2 hombre <50 <90 0 29
Tabla 11. Valores agrupados para el problema propuesto Janssens et al. (2005)
En este trabajo se adjuntan el archivo de datos (Datos 3.1), el archivo de programación
empleado para resolverlo (Program 3.1) y la hoja de Excel utilizada para los cálculos
(Resultados 3.1). Transformamos los datos agrupados en datos individuales. Entonces,
supongamos primero que no tenemos en cuenta las características de los pacientes
(tabla 12):
Enfermo No enfermo Total
Creatinina >=90 73 147 220
<90 25 181 206
Total 98 328 426
Tabla 12. Datos del problema sin tener en cuenta las características propias de los
sujetos propuesto por Janssens et al. (2005)
Setenta y tres de cada 98 (74%) pacientes con estenosis tuvo una alta concentración Crs,
y 25 (26%) pacientes tuvieron una baja concentración de creatinina sérica. Entre las
personas sin estenosis, estas cifras fueron de 147 (45%) y 181 (55%). Da aquí la
sensibilidad y la especificidad.
Obtenemos el 𝐿𝑅+ y el odds ratio, los resultados se muestran en la siguiente tabla:
35
Enfermos No enfermos Total
Crs>=90 73 147 220 Crs<90 25 181 206
Total 98 328 426
Riesgo 0.745 0.448 0.516
Estimación puntual [Intervalo de confianza 95%]
𝐿𝑅+ 1.662 1.37 2.017
Odds ratio 3.595 2.21 5.850
Tabla 13. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo
Utilizando las fórmulas anteriormente descritas en este trabajo (𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =
𝑛11/𝑛.1 y es𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 = 𝑛22/𝑛.2), se obtuvo la sensibilidad global de la
concentración de Crs que fue del 0,74 (𝑆𝑒 = 73/98) y la especificidad que fue del 0,55
(𝑆𝑝 = 181/328). La LR para la baja concentración de Crs fue 0.46 (𝐿𝑅− = (1 − 𝑆𝑒)/𝑆𝑝).
En la tabla 11, se observa que el LR de alta concentración de Crs fue mayor que 1
(𝐿𝑅+=1.66), lo que indica que la alta concentración de Crs fue más frecuente entre los
pacientes con estenosis que entre los que no lo tienen. La odds de estenosis fue 3.60
veces mayor en los pacientes con Crs ≥90 que en los pacientes con Crs <90.
Cuando una prueba de diagnóstico está asociada con las características del paciente, el
LR de la prueba será diferente entre los subgrupos que definen estas características. En
nuestra población de pacientes hipertensos, la concentración de Crs estuvo
significativamente relacionados con el género (coeficiente de correlación de Pearson r=
-0.37, P<0.001) y la edad (r=0.16, P<0.001).
En los ejemplos siguientes, se calcularán el LR de la concentración Crs en los subgrupos
definidos por las variables de género y edad. Comenzamos estratificando por el género:
36
Enfermos No enfermos Total
Estimación puntual
[Intervalo de confianza 95%]
Mu
jere
s Crs>=90 27 33 60 Riesgo 0.574 0.228 0.313
Crs<90 20 112 132 𝐿𝑅+ 2.524 1.713 3.720
Total 47 145 192 OR 4.582 2.295 9.149
Enfermos No enfermos Total
Estimación puntual
[Intervalo de confianza 95%]
Ho
mb
res
Crs>=90 46 114 160 Riesgo 0.902 0.623 0.684 Crs<90 5 69 74 𝐿𝑅+ 1.448 1.253 1.673 Total 51 183 234 OR 5.568 2.171 14.219
Tabla 14. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo
estratificado por género
La tabla 14 muestra que el LR de la alta concentración de creatinina sérica (𝐿𝑅+) fue
mayor en las mujeres que en los hombres (2.52 frente a 1.45), lo que implica que la alta
concentración de Crs es un indicador más fuerte de la presencia de estenosis en las
mujeres que en los hombres. El LR de la baja concentración de Crs (𝐿𝑅−) también fue
mayor en las mujeres que en los hombres (0.55 frente a 0.26), lo que implica que la baja
concentración de Crs es un indicador más fuerte de la ausencia de estenosis en los
hombres que en las mujeres. La sensibilidad y especificidad de la concentración de Crs
en los hombres tuvo una alta sensibilidad (Se=46/51=0.90) y una baja especificidad
(Sp=69/183=0.38), mientras que en las mujeres la especificidad fue superior a la
sensibilidad (Sp=112/145=0.77 frente a Se= 27/47=0.57).
Ahora, estratificamos por género y edad:
37
Enfermos No enfermos Total
Estimación puntual
[Intervalo de confianza 95%]
Mu
jere
s >
=50
Crs>=90 17 20 37 Riesgo 0.630 0.299 0.394
Crs<90 10 47 57 𝐿𝑅+ 2.109 1.322 3.366
Total 27 67 94 OR 3.995 1.579 10.098
Enfermos No enfermos Total
Estimación puntual
[Intervalo de confianza 95%]
Mu
jere
s <
50
Crs>=90 10 13 23 Riesgo 0.500 0.167 0.235
Crs<90 10 65 75 𝐿𝑅+ 3.000 1.547 5.816
Total 20 78 98 OR 5.000 1.770 14.193
Enfermos No enfermos Total
Estimación puntual
[Intervalo de confianza 95%]
Ho
mb
res
>=
50
Crs>=90 39 66 105 Riesgo 0.929 0.623 0.709
Crs<90 3 40 43 𝐿𝑅+ 1.491 1.258 1.768
Total 42 106 148 OR 7.879 2.416 25.475
Enfermos No enfermos Total
Estimación puntual
[Intervalo de confianza 95%]
Ho
mb
res
<5
0 Crs>=90 7 48 55 Riesgo 0.778 0.623 0.640
Crs<90 2 29 31 𝐿𝑅+ 1.248 0.845 1.843
Total 9 77 86 OR 2.115 0.460 .
Tabla 15. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo
estratificado por género y edad
La tabla 15 muestra que las LRs de alta concentración de Crs (𝐿𝑅+) variaron de 1.25 en
los de hombres jóvenes hasta 3.00 en el caso de las mujeres más jóvenes. Los LRs de
baja concentración Crs (𝐿𝑅−) varió desde 0.19 en hombres mayores a 0.60 en las
mujeres más jóvenes. Hay que tener en cuenta que la 𝐿𝑅− fue similar entre las mujeres
y hombres más jóvenes (0.60 y 0.59), y la especificidad de la Crs fue dos veces mayor en
las mujeres que en los hombres (Se=65/78=0,83 frente a 0.38). Esto se debe a que 𝐿𝑅+
fue mayor en las mujeres más jóvenes que en los hombres más jóvenes (3.00 frente a
1.25), y por lo tanto también el OR del test fue mayor entre las mujeres (5.00 frente a
2.12). Esta diferencia en el OR puede indicar una verdadera diferencia debido a la
interacción entre el género y los resultados de las pruebas, pero también puede ser un
hallazgo casual porque el número de pacientes en cada subgrupo es relativamente
pequeño y los intervalos de confianza de las LRs son anchos.
Este último no sólo implica que las características de la prueba obtenidos en pequeños
subgrupos son menos fiables, sino también que hay una mayor diferenciación en
subgrupos por la enfermedad vascular aterosclerótica. Los métodos de regresión
38
pueden superar este problema porque el número de factores que se puede considerar
en el análisis de regresión es generalmente mayor que en el análisis de subgrupos.
Utilizaremos la regresión logística para realizar la predicción de la estenosis de la arteria
renal. En primer lugar, el método de regresión logística se aplicará a los datos a priori
del test demostrando que el método reproduce los resultados de los análisis de
subgrupos. Esta comparación con el análisis de subgrupos requiere todos los efectos de
interacción entre las covariables. En el siguiente ejemplo, se calculará las LRs de la
concentración de Crs en todas las variables.
Los intervalos de confianza para las diferencias de los coeficientes de regresión logística
se pueden aproximar analíticamente o mediante la técnica de “bootstrap”. En este
trabajo, se utilizará esta técnica para estimar los intervalos de confianza. Con este fin,
obtendremos 5000 muestras aleatorias de todos los pacientes. Dentro de cada muestra,
se construirán los modelos de regresión logística de las odds a priori y a posteriori. Se
calcularán las diferencias entre los coeficientes de regresión de los 2 modelos de en cada
muestra obtenida. Para cada coeficiente de regresión, se tomará el promedio de las
2000 diferencias y se obtendrá la desviación estándar. Esta desviación estándar es una
estimación del error estándar de la diferencia de los coeficientes de regresión. En la
siguiente tabla aparecen recogidos los modelos de regresión logística la para los LRs de
la alta y baja concentración de Crs condicionado por el género.
Ln(odds anteriores) Ln(odds anteriores) Ln(LR)
B Err Estd
P valor B Err Estd
P valor B Err Estd
P valor
Intercept -2.62 0.53 <0.001 -1.28 0.16 <0.001 -1.35 0.49 <0.001 Genero 0.90 0.58 0.12 0.15 0.23 0.519 0.75 0.52 0.15 Creatinina 1.72 0.56 0.002 1.72 0.55 <0.001 Creatinina*genero
-0.20 0.67 0.771 -0.20 0.65 0.76
Tabla 16. Modelos de regresión logística la para los LRs de la alta y baja concentración
de Crs condicionado por el género
La ecuación de regresión para la LR de la concentración de creatinina sérica es
𝑒−1.34+0.75𝑥1+1.72𝑥𝑘−0.20𝑥1𝑥𝑘, en la que 𝑥1 se refiere al género y 𝑥𝑘 a la concentración de
Crs. Los resultados del análisis de regresión logística coinciden con los calculados a partir
39
de las tablas 2x2. Por ejemplo, en las mujeres (𝑥1=1), la LR de alta concentración Crs
(𝑥𝑘=1) es 𝑒−1.34+0.75+1.72−0.20= 2.53, y la LR de baja concentración Crs (𝑥𝑘=0) es
𝑒−1.34+0.75= 0.55. Además, se observa que la diferencia en los LR de alta y baja
concentración de Crs entre hombres y mujeres no fue estadísticamente significativa
(P=0.15). La ecuación de regresión de la OR es 𝑒1.72𝑥𝑘−0.20𝑥1𝑥𝑘, que se reduce a
𝑒1.72−0.20𝑥1 porque 𝑥𝑘=1 en el cálculo del OR. La OR de Crs en mujeres es 𝑒1.72−0.20=4.57
y 𝑒1.72= 5,58 en los hombres. Ahora, replicamos el modelo anterior pero añadimos,
también, la variable edad.
Ln(odds anteriores) Ln(odds anteriores) ln(LR)
B Err Estd
P valor B Err Estd
P valor B Err Estd
P valor
Intercept -2.67 0.58 <0.001 -2.15 0.38 <0.001 -0.53 0.53 0.32
genero 0.80 0.69 0.25 0.79 0.46 0.09 0.02 0.59 0.98 Edad 0.08 0.81 0.92 1.22 0.42 <0.001 -1.14 0.76 0.14 Crs 0.75 0.73 0.31 0.75 0.73 0.31 Edad*Genero 0.24 0.98 0.81 -0.77 0.55 0.16 1.01 0.85 0.24 Crs*Genero 0.86 0.94 0.36 0.86 0.94 0.36 Crs*Edad 1.32 0.95 0.17 1.32 0.95 0.16
Genero*Edad*Crs -1.54 1.23 0.21 -1.54 1.23 0.21
Tabla 17. Modelos de regresión logística la para los LRs de la alta y baja concentración
de Crs condicionado por el género y la edad
En la tabla 17, se evaluaron la condición de género (𝑥1) y la edad (𝑥2). Por ejemplo:
Las mujeres (𝑥1=1) con edad menor a los 50 años (𝑥2=0) tienen un LR de la alta
concentración de Crs (𝑥𝑘=1) igual a:
𝑒−0.53+0.02+0.75+0.86 = 3
Las mujeres (𝑥1=1) con edad menor a los 50 años (𝑥2=0) tienen un LR de la baja
concentración de Crs (𝑥𝑘=0) igual a:
𝑒−0.53+0.02 = 0.60
Los hombres (𝑥1=0) con edad mayor o igual a los 50 años (𝑥2=1) tienen un LR de
la alta concentración de Crs (𝑥𝑘=1) igual a:
𝑒−0.53−1.14+0.75+1.32 = 14.6
40
Los hombres (𝑥1=0) con edad mayor o igual a los 50 años (𝑥2=1) tienen un LR de
la alta concentración de Crs (𝑥𝑘=0) igual a:
𝑒−0.53−1.14 = 0.19
Además, se obtuvieron las estimaciones puntuales de sensibilidad y especificidad para
cada subgrupo:
Las mujeres (𝑥1=1) con edad menor a los 50 años (𝑥2=0) se obtiene una
sensibilidad del 75% y una especificidad del 62.5%.
Las mujeres (𝑥1=1) con edad mayor o igual a los 50 años (𝑥2=0) se obtiene una
sensibilidad del 67.8% y una especificidad del 65.4%
Los hombres (𝑥1=0) con edad menor a los 50 años (𝑥2=0) se obtiene una
sensibilidad del 55.5% y una especificidad del 62.9%.
Los hombres (𝑥1=0) con edad mayor o igual a los 50 años (𝑥2=1) se obtiene una
sensibilidad del 28.6% y una especificidad del 84.1%.
Se puede observar que los resultados obtenidos para las tablas 2x2 coinciden con los
obtenidos en la regresión logística ya que se han metido en el modelo las interacciones
entre las variables. Sin embargo, hay situaciones donde las covariables son abundantes
y la regresión logística nos facilitaría mucho más los cálculos en vez de realizar las tablas
2x2 para cada subgrupo.
3.2. Análisis de los datos referentes al ajuste por covariables del repositorio
DABS, en la dirección: http://labs.fhcrc.org/pepe/dabs/datasets.html.
Este siguiente problema fue planteado por Susan J. Norton et al. (2000), pero vamos a
plantearlo de otra manera. El propósito del ejercicio es comparar tres tests diagnósticos
(TEOAEs, DPOAE y ABR) como herramientas para la identificación de problemas de
audición neonatal. Para ello, se tendrá en cuenta el efecto de las covariables tales como
sexo (niño y niña), oído en el que test es llevado a cabo (derecho e izquierdo) y edad del
neonato (variable continua).
41
Junto a este trabajo se adjuntan el archivo de datos (Datos 3.2), el archivo de
programación empleado para resolverlo (Program 3.2) y la hoja de Excel utilizada para
los cálculos (Resultados 3.2).
La edad está recogida de forma continua, entonces tomamos el percentil 50 para
dicotomizarla. El percentil 50 de la edad fue 38.28 meses, luego para la edad <38.28 fue
0 y para edad ≥38.28, uno. Además, las variables que recogen los valores de cada test
diagnóstico son continuas y se van a dicotomizar. Para ello, lo vamos a resolver en
relación a dos tipos de puntos de corte para dicotomizar los tests en positivo o negativo:
a) El punto de corte que se obtenga para la suma máxima de la sensibilidad y
especificidad
b) La mediana de los propios tests
Resolvemos primero para la suma máxima.
En primer lugar obtenemos las gráficas representando los puntos de corte de la
sensibilidad y la especificidad para cada test (DPOAE, TEOAEs y ABR). Aunque no es la
forma clásica de presentar la curva de ROC, se ha representado la sensibilidad frente a
la especificidad.
Figura 3. Puntos de corte para la sensibilidad y especificidad del test DPOAE
0.0
00
.25
0.5
00
.75
1.0
0
Se
nsitiv
ity
0.00 0.25 0.50 0.75 1.00Specificity
Area under ROC curve = 0.6306
42
Figura 4. Puntos de corte para la sensibilidad y especificidad del test TEOAEs
Figura 5. Puntos de corte para la sensibilidad y especificidad del test ABR
Los valores correspondientes fueron:
Para el test DPOAE la suma máxima es Se=36.91% y Sp=81.99%. Punto-corte ≥ -
3.4
Para el test TEOAE la suma máxima es Se=28.86% y Sp=87.86%. Punto-corte ≥ -
5.9
Para el test ABR la suma máxima es Se=35.57% y Sp=84.38%. Punto-corte ≥ -2.7
En relación a estos valores, se dicotomizaron de nuevo los test y se obtuvieron las tablas
2x2:
0.0
00
.25
0.5
00
.75
1.0
0
Se
nsitiv
ity
0.00 0.25 0.50 0.75 1.00Specificity
Area under ROC curve = 0.6006
0.0
00
.25
0.5
00
.75
1.0
0
Se
nsitiv
ity
0.00 0.25 0.50 0.75 1.00Specificity
Area under ROC curve = 0.6081
43
Test Problemas de audición Total
DPOAE Si No
+ 52 804 856 - 97 4,105 4,202
Total 149 4,909 5,058
TEOAE Si No
+ 42 581 623 - 107 4,328 4,435
Total 149 4,909 5,058
ABR Si No
+ 52 764 816 - 97 4,145 4,242
Total 149 4,909 5,058
Tabla 18. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de
corte=suma máxima de la sensibilidad y especificidad)
Mediante las fórmulas descritas en este trabajo obtenemos los LRs, sensibilidad y
especificidad que se recogen en la siguiente tabla:
DPOAE TEOAE ABR
Estima. Puntual
Interv. Conf. 95%
Estima. Puntual
Interv. Conf. 95%
Estima. Puntual
Interv. Conf. 95%
Se 0.35 0.273 0.431 0.28 0.211 0.361 0.35 0.273 0.431 Sp 0.84 0.834 0.604 0.88 0.872 0.723 0.84 0.836 0.623 LR+ 2.13 1.659 2.664 2.38 1.779 3.102 2.24 1.745 2.805
LR- 0.78 0.680 0.869 0.81 0.724 0.893 0.77 0.674 0.860
Tabla 19. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de
audición (punto ce corte=suma máxima de la sensibilidad y especificidad)
Sin tener en cuenta las covariables, se podría decir que estos test son mejores para
descartar el problema de audición que para diagnosticarlo. Teniendo en cuenta esto, el
mejor test para descartar del diagnóstico es el TEOAE, que es el test más específico.
Ahora, vamos a aplicar el modelo de regresión logística de la forma más sencilla, solo
calcularemos el test a posteriori y sin bootstrap pero en este caso obtendremos también
los odds ratio. Los resultados se presentan a continuación.
44
B [Interval. Conf. 95%] Odds Ratio [Interval. Conf. 95%] P valor
DPOAE 1.01 0.664 1.355 2.75 1.943 3.878 <0.001 Oído -0.15 -0.481 0.175 0.86 0.618 1.192 0.36 Edad 0.04 -0.288 0.367 1.04 0.750 1.444 0.81 Género 0.04 -0.293 0.368 1.04 0.746 1.445 0.82
Intercept -3.60 -4.349 -2.848 0.03 0.013 0.058 <0.001
TEOAE 1.07 0.703 1.440 2.92 2.020 4.221 <0.001
Oído -0.13 -0.454 0.203 0.88 0.635 1.225 0.45
Edad 0.04 -0.285 0.370 1.04 0.752 1.448 0.80
Género 0.00 -0.331 0.332 1.00 0.719 1.394 1.00
Intercept -3.54 -4.280 -2.792 0.03 0.014 0.061 <0.001
ABR 1.07 0.723 1.415 2.91 2.061 4.115 <0.001
Oído -0.15 -0.478 0.178 0.86 0.620 1.195 0.37 Edad 0.03 -0.302 0.353 1.03 0.739 1.423 0.88
Género 0.04 -0.295 0.366 1.04 0.744 1.442 0.83
Intercept -3.60 -4.351 -2.850 0.03 0.013 0.058 <0.001
Tabla 20. Regresiones logísticas para cada test diagnóstico y el problema de audición
en relación a las covariables (punto ce corte=suma máxima de la sensibilidad y
especificidad)
Para este test, se han tenido en cuenta las variables oído (𝑥1), edad (𝑥2), género (𝑥3) y
el propio test diagnóstico (𝑥𝑘). Supongamos que el test se ha realizado en el oído
izquierdo (𝑥1 = 0) de una niña (𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del
test positivo y negativo son:
Test DPOAE: 𝐿𝑅+ = 𝑒1.01+0.04−3.60 = 0.078 y 𝐿𝑅− = 𝑒0.04−3.60 = 0.028
Test TEOAE: 𝐿𝑅+ = 𝑒1.07+0.04−3.54 = 0.089 y 𝐿𝑅− = 𝑒0.04−3.54 = 0.030
Test ABR: 𝐿𝑅+ = 𝑒1.07+0.04−3.60 = 0.082 y 𝐿𝑅− = 𝑒0.04−3.60 = 0.028
Supongamos, ahora, que el test se ha realizado en el oído derecho (𝑥1 = 1) de una niña
(𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del test positivo y negativo son:
Test DPOAE: 𝐿𝑅+ = 𝑒1.01−0.15+0.04−3.60 = 0.067 y 𝐿𝑅− = 𝑒−0.15+0.04−3.60 =
0.024
Test TEOAE: 𝐿𝑅+ = 𝑒1.07−0.13+0.04−3.54 = 0.078 y 𝐿𝑅− = 𝑒−0.13+0.04−3.54 =
0.027
45
Test ABR: 𝐿𝑅+ = 𝑒1.07−0.15+0.04−3.60 = 0.070 y 𝐿𝑅− = 𝑒−0.15+0.04−3.60 =
0.024
En ambos casos, el test TEOAE es un poco mejor que el resto. Se puede observar,
además, que no hay mucha diferencia entre las odds ratio de los tres tests, ni entre las
covariables.
Estos valores de los odds ratio y de los LRs se deben a que hemos seleccionado como
punto de corte para los tres tests donde la suma de la especificidad y la sensibilidad es
máxima. Luego es el valor ideal para que el test clasifique de manera equilibrada tanto
a los que tienen la enfermedad como a los que no la tienen.
Vamos ahora a resolver el mismo problema pero tomaremos como punto de corte del
test, la mediana de los mismos. Los valores correspondientes fueron:
Para el test DPOAE la mediana es -7.7
Para el test TEOAE la mediana es -11.9
Para el test ABR la mediana es -3.43
En relación a estos valores, se dicotomizaron de nuevo los test y se obtuvieron las tablas
2x2:
Test Problemas de audición Total
DPOAE Si No
+ 100 2433 2533
- 49 2476 2525
Total 149 4909 5058
TEOAE Si No Total
+ 89 2470 2559
- 60 2439 2499
Total 149 4909 5058
ABR Si No Total
+ 92 2401 2493
- 57 2508 2565
Total 149 4909 5058
Tabla 21. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de
corte=mediana)
46
A continuación se presentan los LRs, sensibilidad y especificidad:
DPOAE TEOAE ABR
Estima. Puntual
Interv. Conf. 95%
Estima. Puntual
Interv. Conf. 95%
Estima. Puntual
Interv. Conf. 95%
Se 0.67 0.590 0.744 0.60 0.515 0.675 0.62 0.535 0.694 Sp 0.50 0.502 0.507 0.50 0.494 0.499 0.51 0.508 0.513 LR+ 1.35 1.184 1.507 1.19 1.018 1.348 1.26 1.089 1.425
LR- 0.65 0.506 0.817 0.81 0.651 0.981 0.75 0.596 0.914
Tabla 22. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de
audición (punto ce corte=mediana)
Sin tener en cuenta las covariables, se podría decir que estos test son mejores para
diagnosticar el problema de audición que para descartarlo. Teniendo en cuenta esto, el
mejor test para diagnosticar es el DPOAE, que es el test más sensible. Sin embargo, si
comparamos con el punto de corte tomado anteriormente, se observa que los tests se
comportan de manera contraria ya que éstos eran mejor para descartar la enfermedad
(especificidad >80%) y no para diagnosticarla ya que la sensibilidad fue <30%.
Este punto es muy importante ya que nos muestra que variando los puntos del corte
para el test diagnóstico, la sensibilidad y especificidad de éstos varían mucho. Hemos
pasado de tener tests diagnósticos que eran buenos para descartar la enfermedad a
tener test diagnósticos que son mejores para diagnosticar la enfermedad.
Repetimos el modelo de regresión logística que hemos llevado a cabo antes pero en vez
de para el punto de corte como la suma máxima, para la mediana. Los resultados de
presentan a continuación:
47
B [Interval. Conf. 95%] Odds Ratio [Interval. Conf. 95%] P valor
DPOAE 0.74 0.390 1.083 2.09 1.476 2.955 <0.001 Oído -0.15 -0.479 0.176 0.86 0.620 1.193 0.37 Edad 0.05 -0.276 0.379 1.05 0.759 1.460 0.76 Género 0.06 -0.270 0.390 1.06 0.763 1.477 0.72
Intercept -3.82 -4.601 -3.042 0.02 0.010 0.048 <0.001
TEOAE 0.37 0.041 0.709 1.45 1.042 2.032 0.03
Oído -0.12 -0.443 0.213 0.89 0.642 1.237 0.49
Edad 0.04 -0.287 0.367 1.04 0.750 1.443 0.81
Género 0.04 -0.291 0.369 1.04 0.748 1.446 0.82
Intercept -3.61 -4.385 -2.838 0.03 0.012 0.059 <0.001
ABR 0.52 0.187 0.858 1.69 1.206 2.357 <0.001
Oído -0.14 -0.471 0.183 0.87 0.624 1.201 0.39 Edad 0.01 -0.320 0.333 1.01 0.726 1.395 0.97
Género 0.05 -0.280 0.379 1.05 0.756 1.461 0.77
Intercept -3.65 -4.418 -2.886 0.03 0.012 0.056 <0.001
Tabla 23. Regresiones logísticas para cada test diagnóstico y el problema de audición
en relación a las covariables (punto ce corte=mediana)
Para comparar con los puntos de corte antes obtenidos vamos a obtener los LRs para las
mismas situaciones. Supongamos que el test se ha realizado en el oído izquierdo (𝑥1 =
0) de una niña (𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del test positivo y
negativo son:
Test DPOAE: 𝐿𝑅+ = 𝑒0.74+0.05−3.82 = 0.048 y 𝐿𝑅− = 𝑒0.05−3.82 = 0.023
Test TEOAE: 𝐿𝑅+ = 𝑒0.37+0.04−3.61 = 0.041 y 𝐿𝑅− = 𝑒0.04−3.61 = 0.028
Test ABR: 𝐿𝑅+ = 𝑒0.52+0.01−3.65 = 0.046 y 𝐿𝑅− = 𝑒0.01−3.65 = 0.027
Supongamos, ahora, que el test se ha realizado en el oído derecho (𝑥1 = 1) de una niña
(𝑥3 = 0) con edad ≥38.28 (𝑥2 = 1). Entonces los LRs del test positivo y negativo son:
Test DPOAE: 𝐿𝑅+ = 𝑒0.74−0.15+0.05−3.82 = 0.041 y 𝐿𝑅− = 𝑒−0.15+0.05−3.82 =
0.020
Test TEOAE: 𝐿𝑅+ = 𝑒0.37−0.12+0.04−3.61 = 0.036 y 𝐿𝑅− = 𝑒−0.12+0.04−3.61 =
0.025
Test ABR: 𝐿𝑅+ = 𝑒0.52−0.14+0.01−3.65 = 0.038 y 𝐿𝑅− = 𝑒−0.14+0.01−3.65 =
0.023
48
Comparando con los valores obtenidos anteriormente para la suma máxima de la
sensibilidad y especificidad se puede observar que los LR positivos son mayores para los
anteriores puntos de corte pero los LR negativos son más altos para estos puntos de
corte (la mediana). Además, se puede observar que las odds ratio obtenidas para los
test TEOAE y ABR son muchos más bajos para estos últimos cálculos, sin embargo, las
odds del resto de covariables son muy similares entre ambos métodos tomados para los
puntos de corte.
Se podría concluir, por tanto, que la mejor opción es tomar el punto de corte como la
suma máxima de sensibilidad y especificidad. Y bajo esas condiciones, el test TEOAE es
el más preciso de todos.
Entonces, se podría decir que los distintos puntos de corte empleados varían mucho la
sensibilidad, especificidad y los LRs y no tanto los valores correspondientes a las
covariables. Por tanto, cuando se vaya a dicotomizar un test se debe tener en cuenta
que se quiere estudiar de éste para establecer el punto de corte correcto.
3.3. Ejemplo de la tira reactiva (TR) propuesto por Cristina la Torre et al.
(2001)
La TR que se utiliza como primera prueba para la determinación de la infección urinaria
se quiere comparar con el “gold standard” que es el urocultivo. Pero se sospecha que
no se comporta de la misma manera en pacientes pediátricos que en pacientes adultos.
Por ello, se desea conocer la sensibilidad y la especificidad de la prueba en relación a la
edad del paciente (niño frente a adulto).
En este trabajo se adjuntan el archivo de datos (Datos 3.3), el archivo de programación
empleado para resolverlo (Program 3.3) y la hoja de Excel utilizada para los cálculos
(Resultados 3.3).
En esta primera tabla 2x2 se presentan los datos del problema sin estratificar por edad,
así como los resultados para la sensibilidad, especificidad y LRs.
49
Enfermedad si Enfermedad no Total
TR+ 86 433 519 TR- 20 548 568
Total 106 981 1087
Estimación puntual [Intervalo de confianza 95%]
Riesgo 0.811 0.441 0.477 LR+ 1.838 1.637 2.064 Odds ratio 5.442 3.307 8.954 Sensibilidad 0.811 0.725 0.877 Especificidad 0.559 0.549 0.566 LR- 0.338 0.217 0.500
Tabla 24. LRs, sensibilidad y especificidad para el test diagnóstico de la TR sin
estratificar por covariables
En esta tabla se observa que la prueba es mucho más sensible (81.1%) que específica
(55.9%), luego este test es mejor para diagnosticar la enfermedad que para descartarla.
Además, como el odds ratio es mayor que 1, sabemos que el test discrimina
correctamente. A continuación, se presenta la misma tabla pero estratificando por edad.
Niños Adultos
Enfermedad si
Enfermedad no Total
Enfermedad si
Enfermedad no Total
TR+ 57 211 268 29 222 251 TR- 17 262 279 3 286 289
Total 74 473 547 32 508 540
Estimación puntual
[Intervalo de confianza 95%]
Estimación puntual
[Intervalo de confianza 95%]
Riesgo 0.770 0.446 0.490 0.906 0.437 0.465 LR+ 1.727 1.472 2.026 2.074 1.787 2.407 Odds ratio 4.163 2.365 7.324 12.453 3.975 38.903 Sensibilidad 0.770 0.663 0.854 0.906 0.743 0.975 Especificidad 0.554 0.537 0.567 0.563 0.553 0.567 LR- 0.415 0.257 0.628 0.167 0.043 0.465
Tabla 25. LRs, sensibilidad y especificidad para el test diagnóstico de la TR
estratificando por edad
Estratificando por edad, se puede observar que el test se comparta de distinta forma ya
que para los adultos el test es mucho más sensible que para los niños (90.6% frente a
77%). Luego, el test de TR es mejor para diagnosticar la enfermedad entre los pacientes
adultos que entre los pacientes pediátricos. En relación a la especificidad no se observan
50
tanta diferencia (0.009 entre ambas poblaciones), luego se podría decir que el test
descarta el diagnóstico casi con la misma precisión tanto en adultos como en niños. El
odds ratio para los adultos es 12.5 frente al 4.2 en niños, luego el test discrimina mucho
más en la población adulta.
Vamos a repetir este proceso mediante la regresión logística. Para ello, al igual que el
problema planteado en la sección 3.1, utilizaremos la técnica del bootstrap para estimar
los intervalos de confianza, obteniendo 5000 muestras aleatorias de todos los pacientes.
Dentro de cada muestra, se construirán los modelos de regresión logística de las odds a
priori y a posteriori y se calcularán las diferencias entre los coeficientes de regresión de
los 2 modelos de en cada muestra obtenida. Para cada coeficiente de regresión, se
tomará el promedio de las 2000 diferencias y se obtendrá la desviación estándar. Esta
desviación estándar es una estimación del error estándar de la diferencia de los
coeficientes de regresión. En la siguiente tabla aparecen recogidos los modelos de
regresión logística la para los LRs condicionado por la edad.
Ln(odds anteriores) Ln(odds anteriores) Ln(LR)
B Err Estd P valor B Err Estd P valor B Err Estd P valor
Intercept -2.74 0.26 <0.001 -1.855 0.126 <0.001 -0.88 0.23 <0.001 Edad -1.82 0.62 0.003 -0.910 0.225 <0.001 -0.91 0.59 0.121 TR 1.43 0.30 <0.001 1.43 0.30 <0.001 TR#Edad 1.10 0.67 0.103 1.10 0.67 0.103
Tabla 26. Modelos de regresión logística la para los LRs condicionado por la edad
La ecuación de regresión para la LR de TR es 𝑒−0.88−0.91𝑥1+1.43𝑥𝑘+1.1𝑥1𝑥𝑘, en la que 𝑥1 se
refiere a la edad y 𝑥𝑘 al test de la TR. Los resultados del análisis de regresión logística
coinciden con los calculados a partir de las tablas 2x2. Por ejemplo, en los niños (𝑥1=0)
con TR+ (𝑥𝑘=1), el LR es 𝑒−0.88+1.43= 1.73, y la LR pata TR- (𝑥𝑘=0) es 𝑒−0.88= 0.42. En los
adultos (𝑥1=1) con TR+ (𝑥𝑘=1), el LR es 𝑒−0.88−0.91+1.43+1.1= 2.1, y la LR pata TR- (𝑥𝑘=0)
es 𝑒−0.88−0.91= 0.17.
Además, se observa que la diferencia en los LR de la TR entre adultos y niños no fue
estadísticamente significativa (P=0.12). La ecuación de regresión de la OR es
𝑒1.43𝑥𝑘+1.1𝑥1𝑥𝑘, que se reduce a 𝑒1.43+1.1𝑥1 porque 𝑥𝑘=1 en el cálculo del OR. La OR de
TR en niños es 𝑒1.43=4.2 y 𝑒1.43+1.1= 12.5 en los adultos.
51
4. Figuras
Figura 1. Valores Predictivos de un test para diferentes prevalencias, con Se=0,85 y
Sp=0,95
Figura 2. Valores Predictivos de un test para diferentes prevalencias, con las respectivas
ganancias, con Se=0,85 y Sp=0,95
Figura 3. Puntos de corte para la sensibilidad y especificidad del test DPOAE
Figura 4. Puntos de corte para la sensibilidad y especificidad del test TEOAEs
Figura 5. Puntos de corte para la sensibilidad y especificidad del test ABR
52
5. Tablas
Tabla 1. Frecuencias observadas al aplicar un test binario a dos muestras, una de
enfermos y otro de sanos
Tabla 2. Algunos factores que pueden afectar un test binario de dos muestras
Tabla 3. Datos del problema expuesto por Cristina la Torre et al. (2001) para niños y
para adultos
Tabla 4. Resultados de la sensibilidad y especificidad del problema expuesto por
Cristina la Torre et al. (2001) para cada población
Tabla 5. Datos del problema expuesto por Cristina la Torre et al. (2001) para ambas
poblaciones combinadas
Tabla 6. Resultados de la sensibilidad y especificidad del problema expuesto por
Cristina la Torre et al. (2001) para cada la combinación de ambas poblaciones
Tabla 7. Fórmulas para los LR, odds ratio, sensibilidad y especificidad para un test
diagnóstico binario
Tabla 8. Ejemplos de modelos de regresión logística convencional y reformulado
Tabla 9. Tabla de contingencia general para la sensibilidad, especificidad y valores
predictivos de una prueba de detección
Tabla 10. Tabla de contingencia general para la sensibilidad relativa de una prueba de
detección (los valores entre paréntesis son desconocidos)
Tabla 11. Valores agrupados para el problema propuesto Janssens et al. (2005)
Tabla 12. Datos del problema sin tener en cuenta las características propias de los
sujetos propuesto por Janssens et al. (2005)
Tabla 13. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo
53
Tabla 14. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo
estratificado por género
Tabla 15. 𝐿𝑅+ y odds ratio de la enfermedad y la Crs como factor de riesgo
estratificado por género y edad
Tabla 16. Modelos de regresión logística la para los LRs de la alta y baja concentración
de Crs condicionado por el género
Tabla 17. Modelos de regresión logística la para los LRs de la alta y baja concentración
de Crs condicionado por el género y la edad
Tabla 18. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de
corte=suma máxima de la sensibilidad y especificidad)
Tabla 19. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de
audición (punto de corte=suma máxima de la sensibilidad y especificidad)
Tabla 20. Regresiones logísticas para cada test diagnóstico y el problema de audición
en relación a las covariables (punto ce corte=suma máxima de la sensibilidad y
especificidad)
Tabla 21. Tabla 2x2 para cada test diagnóstico y el problema de audición (punto de
corte=mediana)
Tabla 22. LRs, sensibilidad y especificidad para cada test diagnóstico y el problema de
audición (punto ce corte=mediana)
Tabla 23. Regresiones logísticas para cada test diagnóstico y el problema de audición
en relación a las covariables (punto ce corte=mediana)
Tabla 24. LRs, sensibilidad y especificidad para el test diagnóstico de la TR sin
estratificar por covariables
Tabla 25. LRs, sensibilidad y especificidad para el test diagnóstico de la TR
estratificando por edad
54
Tabla 26. Modelos de regresión logística la para los LRs condicionado por la edad
55
6. Bibliografía
Afifi AA, Clark V (1984) Computer-aided Multivariate Analysis. Belmont, CA: Lifetime
Learning Publications.
Ahnve S, Gilpin E, Henning H et al. (1986) Limitations and advantages of ejection
fraction for defining high risk after acute myocardial infarction. Am J Cardiol, 58:872-
817.
Apuntes de la asignatura Bioestadística del Máster de Estadística Aplicada de la
Universidad de Granada. (n.d) [Acceso 1 Febrero de 2013]
A. Cecile J.W. Janssens, Yazhong Deng, Gerard J.J.M. Borsboom, Marinus J.C. Eijkemans,
J. Dik. F. Habbema, Ewout W. Steyerberg (2005) A new logistic regression approach for
the evaluation of diagnostic test results. Medical Decision Making, 25:168.
Breslow NE, Day NE (1983) The Analysis of Case-Control Studies. Statistical Methods in
Cancer Research (Lyon: International Agency for Research on Cancer), 1.
Cristina Latorre, Manuela Noguero, Aurea Mira (2001) Evaluación de la tira reactiva
para el diagnóstico de infección urinaria en niños y adultos. Medicina Clínica
(Barcelona), 116:286-289.
George A. Diamond (1992) Clinical epidemiology of sensitivity and specificity. Journal
of Clinical Epidemiology, 45(1):9-13.
Halperin M, Blackwelder WC, Verter JI (1971) Estimation of the multivariate logistic risk
function: a comparison of the discriminant function and maximum likelihood
approaches. J Chron Dis, 24:125-158.
Hermann Brenner, Olaf Gefeller (1997) Variation of sensitivity, specificity, likelihood
ratios and predictive values with disease prevalence. Statistics in Medicine, 16:981-
991.
56
Hlatky MA, Pryor DB, Harrell FE Jr et al. (1984) Factors affecting sensitivity and
specificity of exercise electro-cardiography. Multivariable analysis. American Journal
of Medicine,71:6411.
Kleinbaum DG, Kupper LL, Morgenstern H (1982) Epidemiologic Research: Principles
and Quantitative Methods. Belmont, CA: Lifetime Learning Publications.
Margaret Sullivan Pepe (2004) Statistical Evaluation of Medical Tests for Classification
and Prediction. Oxford Statistical Science Series.
Sackett DL, Haynes RB, Tugwell P (1985) Clinical Epidemiology: A Basic Science for
Clinical Medicine. Boston: Little, Brown.
Schatzkin A, Connor RJ, Taylor PR et al. (1987) Comparing new and old screening tests
when a reference procedure cannot be performed on all screenees. American Journal
of Epidemioly, 125: 672-678.
Schlesselman JJ (1982) Case-Control Studies. Design, Conduct, Analysis. New York:
Oxford University.
Steven S. Coughlin, Bruce Trock, Michael H. Criqui, Linda W. Pickle, Deirdre Browner,
Mariella C. Tefft (1992) The logistic modelling of sensitivity, specificity and predictive
value of a diagnostic test. Journal of Clinical Epidemiology, 45(1):1-7.
57
7. Apéndice
Se adjuntan junto a este trabajo los siguientes archivos digitales:
Datos 3.1.dta
Resultados 3.1.xls
Program 3.1.do
Datos 3.2.dta
Resultados 3.2.xls
Program 3.2.do
Datos 3.3.dta
Resultados 3.3.xls
Program 3.3.do
En Datos 3.1 está recogido la base de datos del problema.
En Resultados 3.1.xls están recogidos todos los cálculos referentes al primer problema
propuesto en este trabajo y las tablas de salida del programa STATA.
En Program 3.1.do se encuentran los comandos ejecutados para resolver el primer
problema propuesto en este trabajo. Se expone a continuación.
En Datos 3.2 está recogido la base de datos del problema.
En Resultados 3.2.xls están recogidos todos los cálculos referentes al segundo problema
propuesto en este trabajo y las tablas de salida del programa STATA.
En Program 3.2.do se encuentran los comandos ejecutados para resolver el segundo
problema propuesto en este trabajo. Se expone a continuación.
En Datos 3.3 está recogido la base de datos del problema.
En Resultados 3.3.xls están recogidos todos los cálculos referentes al tercer problema
propuesto en este trabajo y las tablas de salida del programa STATA.
58
En Program 3.3.do se encuentran los comandos ejecutados para resolver el tercer
problema propuesto en este trabajo. Se expone a continuación.
Program 3.1
***************************************************** ********generación de los datos de Janssens_2005 individuales * ********a partir de una tabla de frecuencias que está en Excel* ***************************************************** odbc load, dsn("Excel Files") table("Hoja1$") dialog(complete) clear foreach var of varlist sexo edad creatinina { encode `var', gen(`var'n) order `var'n , after(`var') drop `var' rename `var'n `var' } label define enfermedad 0 "no-enfermo" 1 "enfermo", replace label val enfermedad enfermedad expand frec di _N tab enfermedad save "E:\Edurne\Master en estadística aplicada\TFM\tfm_edurne\Datos\data_janssens_2005.dta", replace *********************************** **************Creamos la tabla 2x2 *** *********************************** csi 73 147 25 181,or ************************************ ***********Obtenemos las correlaciones* ************************************ pwcorr sexo edad creatinina, sig ********************************* ****tablas 2x2 estratificando por sexo* **** y por sexo y edad*************** ********************************** ****Mujeres**** csi 27 33 20 112,or ****Hombres**** csi 46 114 5 69,or
59
****Mujeres con edad >=50**** csi 17 20 10 47,or ****Mujeres con edad <50**** csi 10 13 10 65,or ****Hombres con edad >=50**** csi 39 66 3 40,or ****Hombres con edad <50**** csi 7 48 2 29,or ****************************************** **Regresiones logísticas para el modelo a priori*** **y a posteriori sin tener en cuenta la edad****** ****************************************** ****Modelo a posteriori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados.dta, replace) seed(1) nodots : logit dependiente crea##genero ****Modelo a priori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados1.dta, replace) Seed(1) nodots : logit dependiente genero ******Unimos los dos archivos generados por el bootstrap (resultados y resultados1). Obtenemos los errores estándar del modelo ln(LR)** merge 1:1 pop using "C:\Users\Usuario\Desktop\resultados1.dta", nogenerate generate b_genero= dependiente_b_genero-b_ge_1 generate b_cons= dependiente_b_cons- b_cons_1 summarize *********************************************** **Regresiones logísticas para el modelo a priori******** **y a posteriori teniendo en cuenta todas las covaribles** ************************************************ ****Modelo a posteriori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados2.dta, replace) seed(1) nodots : logit dependiente genero##age crea##genero crea##age crea##age##genero ****Modelo a priori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\resultados2.dta, replace) seed(1) nodots : logit dependiente genero##age
60
******Unimos los dos archivos generados por el bootstrap (resultados2 y resultados3). Obtenemos los errores estándar del modelo ln(LR)** merge 1:1 pop using "C:\Users\Usuario\Desktop\resultados3.dta", nogenerate generate b_genero= dependiente_b_genero-b_ge_1 generate b_age= dependiente_b_age-b_age_1 generate b_gedad=dependiente_b_age-b_age_1 generate b_cons= dependiente_b_cons- b_cons_1 summarize
Program 3.2 ********************************* *****Sensibilidad y especificidad para* ************cada cutpoint********* ******************************** roctab d y1, detail graph specificity summary roctab d y2, detail graph specificity summary roctab d y3, detail graph specificity summary *************************************** *******Para cada punto de corte obtenido**** *****construimos los tests dicotomizados**** *************************************** generate y11=1 if y1>=-3.4 replace y11=0 if y11==. generate y22=1 if y2>=-5.9 replace y22=0 if y22==. generate y33=1 if y3>=-2.7 replace y33=0 if y33==. ***************************************** ***Obtenemos las tablas 2x2 para cada test***** ***************************************** tabulate y11 d tabulate y22 d tabulate y33 d
61
************************************************* **Regresiones logísticas para el modelo a*************** *********posteriori en relación a las covariables********* *****para los test cuyo punto de corte es la suma maxima * *************** ********************************** logit d y11 ear edad gender logit d y11 ear edad gender, or logit d y22 ear edad gender logit d y22 ear edad gender,or logit d y33 ear edad gender logit d y33 ear edad gender, or ********************************************* ******Obtenemos la mediana de cada test********** ********************************************* generate y111=1 if y1>=-7.7 replace y111=0 if y111==. generate y222=1 if y2>=-11.9 replace y222=0 if y222==. generate y333=1 if y3>=-3.43 replace y333=0 if y333==. ***************************************** ***Obtenemos las tablas 2x2 para cada test***** ***************************************** tabulate y111 d tabulate y222 d tabulate y333 d ***************************************** **Regresiones logísticas para el modelo a******* *********posteriori en relación a las covariables* **para los test cuyo punto de corte es la mediana* ****************************************** logit d y111 ear edad gender logit d y111 ear edad gender, or logit d y222 ear edad gender logit d y222 ear edad gender,or logit d y333 ear edad gender logit d y333 ear edad gender, or
62
Program 3.3 ********************************************* ********generación de los datos de TR individuales * ********************************************* expand frec di _N tab Enf save "E:\Edurne\Master en estadística aplicada\TFM\tfm_edurne\Datos\TR.dta", replace *********************************** **************Creamos la tabla 2x2 *** *********************************** csi 86 433 20 548,or *************************************** ***********Obtenemos la correlaciones* *************************************** pwcorr Edad TR, sig **************************************** ****tablas 2x2 estratificando por sexo* **** y por sexo y edad****************** ***************************************** ****Niños**** csi 57 211 17 262,or ****Adultos**** csi 29 222 3 286,or *************************************************** **Regresiones logísticas para el modelo a priori*** **y a posteriori sin tener en cuenta la edad*** ************************************************** ****Modelo a posteriori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\TREdad.dta, replace) seed(1) nodots : logit Enf TR##Edad ****Modelo a priori**** bootstrap, reps(5000) saving(C:\Users\Usuario\Desktop\Edad.dta, replace) seed(1) nodots : logit Enf Edad
63
******Unimos los dos archivos generados por el bootstrap (resultados y resultados1). Obtenemos los errores estándar del modelo ln(LR)** merge 1:1 pop using "C:\Users\Usuario\Desktop\Edad.dta", nogenerate generate dif_edad= b_edad_p-b_edad_a generate dif_cons= b_cons_p- b_cons_a summarize