¿Alguna vez es una buena idea dar "crédito parcial" (resultado continuo) en el entrenamiento de una regresión logística?

Estoy entrenando una regresión logística para predecir qué corredores tienen más probabilidades de terminar una agotadora carrera de resistencia.

Muy pocos corredores completan esta carrera, por lo que tengo un grave desequilibrio de clase y una pequeña muestra de éxitos (tal vez unas pocas docenas). Siento que podría obtener una buena "señal" de las docenas de corredores que casi lo lograron. (Mis datos de entrenamiento no solo se completaron, sino también hasta qué punto los que no terminaron realmente lo lograron). Así que me pregunto si es una idea terrible o no incluir algún "crédito parcial". Se me ocurrieron un par de funciones para crédito parcial, la rampa y la curva logística, que podrían recibir varios parámetros.

La única diferencia con la regresión sería que usaría datos de entrenamiento para predecir el resultado continuo modificado en lugar de un resultado binario. Comparando sus predicciones en un conjunto de prueba (usando la respuesta binaria) obtuve resultados bastante poco concluyentes: el crédito parcial logístico pareció mejorar marginalmente R-cuadrado, AUC, P / R, pero este fue solo un intento en un caso de uso usando un pequeña muestra

No me importa que las predicciones tengan un sesgo uniforme hacia la finalización; lo que me importa es clasificar correctamente a los concursantes según su probabilidad de terminar, o tal vez incluso estimar su probabilidad relativa de terminar.

Entiendo que la regresión logística supone una relación lineal entre los predictores y el registro de la razón de posibilidades, y obviamente esta relación no tiene una interpretación real si empiezo a jugar con los resultados. Estoy seguro de que esto no es inteligente desde un punto de vista teórico, pero podría ayudar a obtener alguna señal adicional y evitar el sobreajuste. (Tengo casi tantos predictores como éxitos, por lo que puede ser útil utilizar las relaciones con finalización parcial como un control de las relaciones con finalización completa).

¿Se utiliza este enfoque en la práctica responsable?

De cualquier manera, ¿existen otros tipos de modelos (tal vez algo que explícitamente modele la tasa de riesgo, aplicada a distancia en lugar de tiempo) que podrían ser más adecuados para este tipo de análisis?

logistic binary-data continuous-data C8H10N4O2
fuente

Respuestas:

Esto parece un trabajo para el análisis de supervivencia, como el análisis de riesgos proporcionales de Cox o posiblemente algún modelo de supervivencia paramétrico.

Piense en este problema a la inversa de la forma en que lo está explicando: ¿cuáles son las variables predictoras asociadas con distancias anteriores para dejar de fumar ?

Dejar de fumar es el evento. La distancia recorrida podría considerarse equivalente al tiempo hasta el evento en el análisis de supervivencia estándar. Luego tiene un número de eventos igual al número de personas que renuncian, por lo que su problema con un número limitado de predictores disminuirá. Todos los que renuncian brindan información.

Un modelo de Cox, si funciona en sus datos, proporcionará un predictor lineal basado en todos los valores variables del predictor, clasificando a los concursantes en orden de distancias pronosticadas para dejar de fumar.

EdM
fuente

Gracias por esto. Parece que está diciendo que usando el modelo de Cox, los corredores con la mayor distancia pronosticada para dejar de fumar también son los menos propensos a abandonar antes de la distancia final, debido a la construcción de riesgos proporcionales. ¿Es eso exacto? Además, dado que está recomendando esto, ¿adivinar la idea de crédito parcial no le pareció tan fundado?

C8H10N4O2

Eso es esencialmente correcto. Veo la incorporación de la distancia para dejar de fumar en un modelo de supervivencia como una forma de dar "crédito parcial" de una manera que tenga una justificación teórica y práctica bien establecida. No he trabajado con los detalles, pero sospecho que esto logra exactamente lo que pretendía, como se expresa en su gráfico.

EdM