Tenemos datos con un resultado binario y algunas covariables. Usé regresión logística para modelar los datos. Solo un simple análisis, nada extraordinario. Se supone que el resultado final es una curva de dosis-respuesta donde mostramos cómo cambia la probabilidad para una covariable específica. Algo como esto:
Recibimos algunas críticas de un revisor interno (no un estadístico puro) por elegir la regresión logística. La regresión logística supone (o define) que el punto de inflexión de la curva en forma de S en la escala de probabilidad tiene una probabilidad de 0,5. Argumentó que no habría ninguna razón para suponer que el punto de inflexión tenía una probabilidad de 0.5 y deberíamos elegir un modelo de regresión diferente que permita que el punto de inflexión varíe de tal manera que la posición real esté basada en datos.
Al principio, su argumento me tomó por sorpresa, ya que nunca había pensado en este punto. No tenía ningún argumento de por qué estaría justificado suponer que el punto de inflexión está en 0.5. Después de investigar un poco, todavía no tengo una respuesta a esta pregunta.
Encontré la regresión logística de 5 parámetros, para la cual el punto de inflexión es un parámetro adicional, pero parece que este modelo de regresión generalmente se usa cuando se producen curvas de dosis-respuesta con un resultado continuo. No estoy seguro de si y cómo se puede extender a las variables de respuesta binaria.
Supongo que mi pregunta principal es por qué o cuándo está bien suponer que el punto de inflexión para una regresión logística está en 0.5. ¿Incluso importa? Nunca he visto a nadie que se ajuste a un modelo de regresión logística y que explique explícitamente el asunto del punto de inflexión. ¿Existen alternativas para crear una curva de respuesta a la dosis donde el punto de inflexión no sea necesariamente de 0.5?
Solo para completar, el código R para generar la imagen de arriba:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Editar 1:
Solo para agregar a lo que Scortchi dijo en uno de los comentarios: El revisor realmente argumentó que biológicamente podría ser más probable que el cambio en la curvatura ocurra antes de 0.5. Por lo tanto, su resistencia contra asumir que el punto de inflexión es 0.5.
Edición 2:
Como reacción al comentario de Frank Harrell:
Como ejemplo, modifiqué mi modelo anterior para incluir un término cuadrático y un término cúbico en gre
(que es la "dosis" en este ejemplo).
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
A pesar de que probablemente no sea significativo agregar un término cuadrático y un gre
término cúbico en este caso, vemos que la forma de la curva dosis-respuesta ha cambiado. De hecho, ahora tenemos dos puntos de inflexión a aproximadamente 0.25 y cerca de 0.7.
Respuestas:
Según lo mencionado por @scortchi, el revisor estaba operando bajo la falsa impresión de que no es posible modelar los efectos no lineales de los predictores en la escala logit en el contexto de la regresión logística. El modelo original asumió rápidamente la linealidad de todos los predictores. Al relajar el supuesto de linealidad, utilizando, por ejemplo, splines cúbicas restringidas (splines naturales), toda la forma de la curva es flexible y el punto de inflexión ya no es un problema. Si hubiera habido un único predictor y se hubiera ampliado utilizando una spline de regresión, se podría decir que el modelo logístico solo hace suposiciones de suavidad e independencia de las observaciones.
fuente
Me parece que el crítico solo estaba buscando algo que decir. Antes de examinar tales características de la especificación como el punto de inflexión implícito, hay un montón de suposiciones que hemos hecho para llegar a un modelo estimable. Todo podría ser cuestionado y debatido: el uso de la función logística en sí es un posible objetivo principal: ¿quién nos dijo que la distribución condicional del término de error subyacente es logística? Nadie.
Entonces el problema es: ¿qué significa el cambio de curvatura? ¿Cuán importante para el fenómeno del mundo real en estudio puede ser el punto en el que ocurre este cambio de curvatura, de modo que consideremos hacerlo "basado en datos"? ¿Alejarse del principio de parsimonia?
La pregunta no es "¿por qué el punto de inflexión debería estar en 0.5?" Pero "¿qué tan engañoso puede ser para nuestras conclusiones si se deja en 0.5?".
fuente
En mho, la regresión logit es una opción razonable para la dosis-respuesta. Por supuesto, puede usar probit, log-log, c-log-log link y comparar la bondad de ajuste (DEV, BIC, CAIC, etc.). Pero la regresión logit más simple proporciona una evaluación formal cómoda del punto de inflexión LD50 = -b0 / b1. Recordamos que es un punto específico, para el cual obtenemos la mínima incertidumbre (cf., LD16, LD84, y cualquier otro tendrá un IC más amplio, ver "Análisis Probit" de Finney, 1947, 1977). En mi experiencia, siempre (?) Era mejor usar el logaritmo de la dosis y luego simplemente convertir el IC del 95% en la escala original. ¿Cuál es la naturaleza de las otras covariables en el modelo? Aludo a la posibilidad de usar un enfoque multimodelo ... Ciertamente, las Splines son flexibles, ¡pero los parámetros formales se interpretan más fácilmente!
Ver http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm
fuente
El punto de inflexión de 0.5 es una pequeña parte de una pregunta más amplia: la ecuación logística es simétrica por construcción. Y en la mayoría de sus derivaciones, el efecto modelado tiene una razón para ser simétrico. por ejemplo, cuando un jugador gana, el otro pierde, o el efecto responsable de la saturación es el mismo efecto físico responsable del crecimiento inicial, etc. Entonces, si hay una razón por la cual el origen del comportamiento X bajo es el mismo origen como la mano derecha se comporta o por cualquier otra razón el problema es simétrico, entonces tiene su justificación.
si no, quizás el siguiente modelo más simple es la ecuación logística generalizada. tiene más parámetros y es posible que desee agregar una restricción para que no todos sean parámetros libres. esto es probablemente más deseable que los errores que agregó porque están agregando anaqueles donde la primera derivada oscila de un lado a otro; ese tipo de cosas tiende a crear puntos falsos ficticios de equilibrio local si está tratando de optimizar algún valor de expectativa de esto distribución. la forma generalizar romperá la simetría pero de una manera suave.
fuente