En un artículo reciente, Norton et al. (2018) declara que
No se pueden comparar diferentes razones de probabilidad del mismo estudio cuando los modelos estadísticos que dan como resultado estimaciones de razón de probabilidades tienen diferentes variables explicativas porque cada modelo tiene un factor de escala arbitrario diferente. Tampoco se puede comparar la magnitud de la razón de probabilidades de un estudio con la magnitud de la razón de probabilidades de otro estudio, porque diferentes muestras y diferentes especificaciones del modelo tendrán diferentes factores de escala arbitrarios. Otra implicación es que las magnitudes de las odds ratios de una asociación dada en múltiples estudios no pueden sintetizarse en un metanálisis.
Una pequeña simulación ilustra esto (el código R está al final de la pregunta). Supongamos que el modelo verdadero es:
Imagine además que los mismos datos generados por el modelo anterior son analizados por cuatro investigadores diferentes utilizando una regresión logística. El investigador 1 solo incluye como covariable, el investigador 2 incluye tanto como y así sucesivamente. Los estimados simulados promedio de la razón de probabilidades para de los cuatro investigadores fueron:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
Es evidente que solo los investigadores 3 y 4 obtienen la razón de probabilidades correcta de aproximadamente mientras que los investigadores 1 y 2 no. Esto no sucede en la regresión lineal, que se puede mostrar fácilmente mediante una simulación similar (no se muestra aquí). Debo confesar que este resultado fue bastante sorprendente para mí, aunque este problema parece ser bien conocido . Hernán y col. (2011) llaman a esto una "rareza matemática" en lugar de un sesgo.[ 2 ] [ 3 ]
Mis preguntas:
- Si las razones de probabilidad son básicamente incomparables entre los estudios y modelos, ¿cómo podemos combinar los resultados de diferentes estudios para resultados binarios?
- Lo que se puede decir de los innumerables metaanálisis que tenía combinan los odds ratios de diferentes estudios en los que cada estudio posiblemente ajustada por un conjunto diferente de covariables? ¿Son esencialmente inútiles?
Referencias
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Odds Ratios - Mejores prácticas y usos actuales. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): Log Odds and the Interpretation of Logit Models. Health Serv Res. 53 (2): 859-878.
[3]: Hernán MA, Clayton D, Keiding N (2011): la paradoja de Simpson desvelada. Int J Epidemiol 40: 780-785.
Divulgar
La pregunta (incluido el código R) es una versión modificada de una pregunta planteada por el usuario timdisher sobre métodos de datos .
Código R
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios
fuente
Respuestas:
Existen varios efectos alternativos que se pueden derivar del modelo de regresión logística que no sufren este mismo problema. Uno de los más fáciles es el efecto marginal promedio de la variable. Suponga el siguiente modelo de regresión logística:
donde es una matriz de (casos) por (covariables), son los pesos de regresión para las covariables, es la variable de tratamiento de interés y es su efecto.X norte k β k re γ
La fórmula para el efecto marginal promedio de sería:re
Este efecto sería la diferencia de probabilidad promedio en el resultado entre el grupo de tratamiento y control para aquellos que tienen los mismos valores en otros predictores (ver Gelman y Hill, 2007, p. 101).
La sintaxis R correspondiente dado el ejemplo de OP sería:
Modifiqué la sintaxis de OP para demostrar que no se ve afectada por las variables que están en el modelo, siempre que la variable predictiva de interés no esté relacionada con otros predictores.
Modifiqué el marco de datos de resultados así:
Y dentro de la simulación, guardé la diferencia de probabilidad promedio calculada:
Y los nuevos resultados:
El efecto estimado fue consistente independientemente de la especificación del modelo. Y agregar covariables mejoró la eficiencia como con el modelo de regresión lineal:
Hay efectos adicionales que OP puede calcular como la razón de probabilidad promedio entre los dos grupos. La diferencia de probabilidad promedio calculada anteriormente está disponible en el paquete de márgenes en R y en el comando de márgenes en Stata. La razón de probabilidad promedio solo está disponible en Stata.
Sobre la otra pregunta sobre confiar en los resultados del metanálisis. Por un lado, la dirección del efecto no debería ser inútil. El problema con las razones de posibilidades no afecta el signo de los coeficientes. Entonces, si una gran parte de los estudios tienen una razón de posibilidades superior a uno, no hay razón para dudar de este efecto debido a este problema en particular.
En cuanto a la estimación exacta, no hay razón para creerlo. Lo bueno es que si los estudios constituyentes son ensayos controlados aleatorios, entonces los odds ratios son estimaciones conservadoras y los resultados reales son aún mayores. Esto se debe a que el efecto que OP demostró reduce las odds ratios hacia uno. Entonces, si la mayoría de los estudios tienen una razón de posibilidades superior a 1 y el metanálisis apunta en esta dirección, entonces el OR real una vez que se ajustan todas las covariables relevantes es aún mayor. Por lo tanto, estos metanálisis no son completamente inútiles.
Pero preferiría utilizar otras estimaciones de efectos en el metanálisis. La diferencia de probabilidad promedio es un enfoque, y hay otros.
Gelman, A. y Hill, J. (2007). Análisis de datos mediante regresión y modelos multinivel / jerárquicos. Prensa de la Universidad de Cambridge.
fuente