Análisis residual de regresión logística.

12

Esta pregunta es algo general y de largo aliento, pero por favor tengan paciencia conmigo.

En mi aplicación, tengo muchos conjuntos de datos, cada uno con ~ 20,000 puntos de datos con ~ 50 características y una sola variable binaria dependiente. Estoy intentando modelar los conjuntos de datos usando regresión logística regularizada (paquete R glmnet )

Como parte de mi análisis, he creado gráficos residuales de la siguiente manera. Para cada característica, clasifico los puntos de datos según el valor de esa característica, divido los puntos de datos en 100 cubos y luego calculo el valor de salida promedio y el valor de predicción promedio dentro de cada cubo. Trazo estas diferencias.

Aquí hay un ejemplo de diagrama residual:

En la gráfica anterior, la característica tiene un rango de [0,1] (con una fuerte concentración en 1). Como puede ver, cuando el valor de la característica es bajo, el modelo parece estar sesgado para sobreestimar la probabilidad de una salida de 1. Por ejemplo, en el segmento más a la izquierda, el modelo sobreestima la probabilidad en aproximadamente un 9%.

Armado con esta información, me gustaría alterar la definición de la función de una manera directa para corregir este sesgo. Alteraciones como reemplazar

XX

o

XFun(X)={un Si X<un X más

¿Cómo puedo hacer esto? Estoy buscando una metodología general para que un humano pueda desplazarse rápidamente a través de las ~ 50 parcelas y realizar modificaciones, y hacer esto para todos los conjuntos de datos y repetir a menudo para mantener los modelos actualizados a medida que los datos evolucionan con el tiempo.

Como pregunta general, ¿es este incluso el enfoque correcto? Las búsquedas en Google de "análisis residual de regresión logística" no arrojan muchos resultados con buenos consejos prácticos. Parecen estar obsesionados con responder la pregunta: "¿Es este modelo un buen ajuste?" y ofrecen varias pruebas como Hosmer-Lemeshow para responder. Pero no me importa si mi modelo es bueno, ¡quiero saber cómo mejorarlo!

dshin
fuente

Respuestas:

4

Realmente no se puede evaluar el sesgo de esa manera en la regresión logística. Solo se espera que la regresión logística sea imparcial con respecto a las probabilidades de registro o las puntuaciones de logit, log (p / (1-p)). Las proporciones serán sesgadas y, por lo tanto, se verán sesgadas. Debe trazar los residuos en términos de probabilidades de registro.

John
fuente
¿Cómo combino los residuos de registro impar dentro de un cubo? Promedio aritmético? Esto es un poco inquietante para mí. Intuitivamente, si un análisis residual no muestra sesgo, entonces espero que cuando el modelo predice Pr [y = 1] <0.2, y debería ser igual a 1 con una probabilidad menor que 0.2. Pero su respuesta parece sugerir que este no es el caso. ¿Estoy entendiendo correctamente?
dshin
Esto probablemente sea mejor publicado como un comentario.
probabilityislogic
No David, no implica nada más que la probabilidad 0.2, tal vez mis ediciones lo dejen más claro.
John
Lo siento, todavía estoy un poco confundido. Mi comprensión intuitiva de un modelo imparcial es que si el modelo predice p = 0.2 en cada uno de un gran número de puntos de datos, entonces el 20% de esos puntos de datos debería tener y = 1. ¿Es correcto este entendimiento? Si es así, entonces parece que mi metodología de trazado debería mostrar el sesgo correctamente. Si no ... ¡entonces no estoy muy contento con este concepto de "sesgo"! Si una lectura de modelo imparcial de 0.2 no me dice nada acerca de la probabilidad de que y = 1, ¿de qué sirve la imparcialidad?
dshin
Sí, el 20% debería tener y = 1. Pero no va a estar muerto, va a estar apagado en cierta medida. En el espacio de probabilidad, ¿en qué dirección crees que estará fuera y en qué medida? Si es imparcial, caerá igualmente en algún lugar de .2: 1 o 0: .2. Sin embargo, como puede ver por el tamaño de esos espacios, tenderán a estar más lejos en el área más grande solo porque pueden hacerlo. En el espacio logit, la distancia debe ser igual a + o -.
John
2

es poco probable que exista algún software general para hacer esto. muy probablemente porque no hay una teoría general para solucionar problemas en la regresión. por lo tanto, se trata más de un tipo de respuesta "lo que haría" en lugar de un procedimiento basado en la teoría.

la trama que produce es básicamente una prueba visual HL con 100 bins, pero usando un solo predictor en lugar de la probabilidad pronosticada para hacer el binning. Esto significa que es probable que su procedimiento herede algunas de las propiedades de la prueba HL.

su procedimiento parece razonable, aunque debe ser consciente de "sobreajustar" sus criterios. su criterio también es menos útil como diagnóstico porque se ha convertido en parte del proceso de estimación. Además, siempre que haga algo por intuición, debe anotar su proceso de toma de decisiones con el mayor detalle posible. Esto se debe a que puede descubrir las semillas de un proceso o teoría general, que cuando se desarrolla conduce a un mejor procedimiento (más automático y óptimo con respecto a alguna teoría).

Creo que una forma de hacerlo es reducir primero la cantidad de parcelas que necesita investigar. Una forma de hacerlo es ajustar cada variable como una spline cúbica, y luego investigar los gráficos que tienen estimaciones no lineales no nulas. Dado el número de puntos de datos, esta es también una solución automática fácil para las no linealidades. esto ampliará su modelo de 50 a 200 + 50k donde k es el número de nudos. se podría pensar que esto aplica una "expansión estadística de la serie taylor" de la transformación "verdadera".

si su imagen fija de diagnóstico se ve mal después de esto, entonces trataría de agregar términos de interacción.

partes de su pregunta parecen más sobre escribir un programa interactivo, que es más el dominio de stackoverflow que aquí. También puede ser útil buscar herramientas de análisis de datos exploratorios, ya que es más probable que tengan características que puede "aprovechar".

probabilidadislogica
fuente
Gracias por esta respuesta Examinaré la idea de spline cúbico. Había empleado este enfoque de "mirar gráficas y ajustar características" en una configuración de regresión lineal, donde parecía más obvio cómo lograr mejores ajustes. Por ejemplo, si ve un palo de hockey, es obvio que aplicar una corrección f_a (x) conduce a un mejor ajuste. A menudo, el conocimiento del dominio del problema coincide con esta decisión: si predice la felicidad de los ingresos, por ejemplo, tendría sentido limitar los ingresos, a menos que piense que los multimillonarios son 1000 veces más felices que los millonarios.
dshin
Pero cuando cambié a una configuración de regresión logística, me di cuenta de que no estaba realmente seguro de cómo transferir mi metodología. De ahí esta sumisión.
dshin