Regresión logística y punto de inflexión

12

Tenemos datos con un resultado binario y algunas covariables. Usé regresión logística para modelar los datos. Solo un simple análisis, nada extraordinario. Se supone que el resultado final es una curva de dosis-respuesta donde mostramos cómo cambia la probabilidad para una covariable específica. Algo como esto:

ingrese la descripción de la imagen aquí

Recibimos algunas críticas de un revisor interno (no un estadístico puro) por elegir la regresión logística. La regresión logística supone (o define) que el punto de inflexión de la curva en forma de S en la escala de probabilidad tiene una probabilidad de 0,5. Argumentó que no habría ninguna razón para suponer que el punto de inflexión tenía una probabilidad de 0.5 y deberíamos elegir un modelo de regresión diferente que permita que el punto de inflexión varíe de tal manera que la posición real esté basada en datos.

Al principio, su argumento me tomó por sorpresa, ya que nunca había pensado en este punto. No tenía ningún argumento de por qué estaría justificado suponer que el punto de inflexión está en 0.5. Después de investigar un poco, todavía no tengo una respuesta a esta pregunta.

Encontré la regresión logística de 5 parámetros, para la cual el punto de inflexión es un parámetro adicional, pero parece que este modelo de regresión generalmente se usa cuando se producen curvas de dosis-respuesta con un resultado continuo. No estoy seguro de si y cómo se puede extender a las variables de respuesta binaria.

Supongo que mi pregunta principal es por qué o cuándo está bien suponer que el punto de inflexión para una regresión logística está en 0.5. ¿Incluso importa? Nunca he visto a nadie que se ajuste a un modelo de regresión logística y que explique explícitamente el asunto del punto de inflexión. ¿Existen alternativas para crear una curva de respuesta a la dosis donde el punto de inflexión no sea necesariamente de 0.5?

Solo para completar, el código R para generar la imagen de arriba:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

Editar 1:

Solo para agregar a lo que Scortchi dijo en uno de los comentarios: El revisor realmente argumentó que biológicamente podría ser más probable que el cambio en la curvatura ocurra antes de 0.5. Por lo tanto, su resistencia contra asumir que el punto de inflexión es 0.5.

Edición 2:

Como reacción al comentario de Frank Harrell:

Como ejemplo, modifiqué mi modelo anterior para incluir un término cuadrático y un término cúbico en gre(que es la "dosis" en este ejemplo).

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

ingrese la descripción de la imagen aquí

A pesar de que probablemente no sea significativo agregar un término cuadrático y un gretérmino cúbico en este caso, vemos que la forma de la curva dosis-respuesta ha cambiado. De hecho, ahora tenemos dos puntos de inflexión a aproximadamente 0.25 y cerca de 0.7.

regression logistic generalized-linear-model binary-data Francis
fuente

2

¿No es eso lo mismo que pedir investigar relaciones no lineales de predictores con las probabilidades de respuesta logarítmicas?

Scortchi - Restablece a Monica

8

Según lo mencionado por @scortchi, el revisor estaba operando bajo la falsa impresión de que no es posible modelar los efectos no lineales de los predictores en la escala logit en el contexto de la regresión logística. El modelo original asumió rápidamente la linealidad de todos los predictores. Al relajar el supuesto de linealidad, utilizando, por ejemplo, splines cúbicas restringidas (splines naturales), toda la forma de la curva es flexible y el punto de inflexión ya no es un problema. Si hubiera habido un único predictor y se hubiera ampliado utilizando una spline de regresión, se podría decir que el modelo logístico solo hace suposiciones de suavidad e independencia de las observaciones.

Frank Harrell
fuente

Tengo que admitir que no estoy muy familiarizado con la regresión de splines. ¿Cómo podría hacer esto junto con la regresión logística (en R)? Modifiqué mi publicación original (edición 2) para incluir términos polinómicos en el predictor. ¿Podría usar esto como alternativa al suavizado de splines? Por supuesto, no tengo la misma flexibilidad que tendría con splines.

Francis

1

@Franco: las propias estrategias de modelado de regresión de Frank Harrell ( libro , sitio web , paquete R ) deberían ayudarlo a continuar. Una breve discusión de algunas de las ventajas de las splines de regresión está aquí ; pero tienes razón, por supuesto, que los polinomios son una alternativa.

Scortchi - Restablece a Monica

4

Me parece que el crítico solo estaba buscando algo que decir. Antes de examinar tales características de la especificación como el punto de inflexión implícito, hay un montón de suposiciones que hemos hecho para llegar a un modelo estimable. Todo podría ser cuestionado y debatido: el uso de la función logística en sí es un posible objetivo principal: ¿quién nos dijo que la distribución condicional del término de error subyacente es logística? Nadie.

Entonces el problema es: ¿qué significa el cambio de curvatura? ¿Cuán importante para el fenómeno del mundo real en estudio puede ser el punto en el que ocurre este cambio de curvatura, de modo que consideremos hacerlo "basado en datos"? ¿Alejarse del principio de parsimonia?

La pregunta no es "¿por qué el punto de inflexión debería estar en 0.5?" Pero "¿qué tan engañoso puede ser para nuestras conclusiones si se deja en 0.5?".

Alecos Papadopoulos
fuente

2

Eso parece un poco poco caritativo. No sabemos que el revisor no tenía buenas razones para cuestionar esta suposición en lugar de otras que podría haber desafiado. Deje a un lado una forma extraña de expresarlo en términos de puntos de inflexión, y una posible idea errónea sobre la regresión logística, y básicamente se pregunta por qué el modelo permite que la curva se desplace y estire, pero no se doble, lo que bien podría merecer una respuesta.

Scortchi - Restablece a Monica

@Scortchi "forma extraña de decirlo" ... "un posible error sobre la regresión logística" ... Si esto es lo que se necesita para racionalizar la crítica del crítico, no debería haber revisado el artículo después de todo.

Alecos Papadopoulos

1

Al igual que con @Scortchi, esto me parece un poco demasiado agudo. Muchas de las personas más activas aquí tienen antecedentes en diversas ciencias en lugar de las estadísticas generales. Ser estadístico, puro o de otro tipo, no es esencial ni suficiente para dar buenos consejos (aunque en casi todos los casos ayudará de manera manifiesta).

Nick Cox

@Nick Cox Acepto la "nitidez", y acabo de eliminar mi última oración, como una señal de consenso. Mi punto es que cuestionar de manera general los supuestos de un modelo no tiene valor: los modelos siempre son falsos. Entonces, si la probabilidad de que la curvatura cambie sea de alguna manera crítica para el fenómeno del mundo real en estudio, entonces el revisor tuvo razón al preguntar que este punto se basa en datos. Pero si el revisor simplemente comentó "¿por qué en p = 0.5 y no en otra parte?", Este comentario no es constructivo.

Alecos Papadopoulos

2

Gracias por esto. Estoy de acuerdo con su postura general: (a) discusión sobre los méritos de diferentes enfoques y (b) discusión sobre cómo deberíamos discutir que ambos son un juego justo. Los comentarios sobre individuos o incluso grupos, en contraste, no suelen ser útiles (aunque a veces yo también cruzo la línea con exasperación ...).

Nick Cox

0

En mho, la regresión logit es una opción razonable para la dosis-respuesta. Por supuesto, puede usar probit, log-log, c-log-log link y comparar la bondad de ajuste (DEV, BIC, CAIC, etc.). Pero la regresión logit más simple proporciona una evaluación formal cómoda del punto de inflexión LD50 = -b0 / b1. Recordamos que es un punto específico, para el cual obtenemos la mínima incertidumbre (cf., LD16, LD84, y cualquier otro tendrá un IC más amplio, ver "Análisis Probit" de Finney, 1947, 1977). En mi experiencia, siempre (?) Era mejor usar el logaritmo de la dosis y luego simplemente convertir el IC del 95% en la escala original. ¿Cuál es la naturaleza de las otras covariables en el modelo? Aludo a la posibilidad de usar un enfoque multimodelo ... Ciertamente, las Splines son flexibles, ¡pero los parámetros formales se interpretan más fácilmente!

Ver http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm

Ivan Kshnyasev
fuente

0

El punto de inflexión de 0.5 es una pequeña parte de una pregunta más amplia: la ecuación logística es simétrica por construcción. Y en la mayoría de sus derivaciones, el efecto modelado tiene una razón para ser simétrico. por ejemplo, cuando un jugador gana, el otro pierde, o el efecto responsable de la saturación es el mismo efecto físico responsable del crecimiento inicial, etc. Entonces, si hay una razón por la cual el origen del comportamiento X bajo es el mismo origen como la mano derecha se comporta o por cualquier otra razón el problema es simétrico, entonces tiene su justificación.

si no, quizás el siguiente modelo más simple es la ecuación logística generalizada. tiene más parámetros y es posible que desee agregar una restricción para que no todos sean parámetros libres. esto es probablemente más deseable que los errores que agregó porque están agregando anaqueles donde la primera derivada oscila de un lado a otro; ese tipo de cosas tiende a crear puntos falsos ficticios de equilibrio local si está tratando de optimizar algún valor de expectativa de esto distribución. la forma generalizar romperá la simetría pero de una manera suave.

Charlie Strauss
fuente

Regresión logística y punto de inflexión

Respuestas: