Esta pregunta es algo general y de largo aliento, pero por favor tengan paciencia conmigo.
En mi aplicación, tengo muchos conjuntos de datos, cada uno con ~ 20,000 puntos de datos con ~ 50 características y una sola variable binaria dependiente. Estoy intentando modelar los conjuntos de datos usando regresión logística regularizada (paquete R glmnet )
Como parte de mi análisis, he creado gráficos residuales de la siguiente manera. Para cada característica, clasifico los puntos de datos según el valor de esa característica, divido los puntos de datos en 100 cubos y luego calculo el valor de salida promedio y el valor de predicción promedio dentro de cada cubo. Trazo estas diferencias.
Aquí hay un ejemplo de diagrama residual:
En la gráfica anterior, la característica tiene un rango de [0,1] (con una fuerte concentración en 1). Como puede ver, cuando el valor de la característica es bajo, el modelo parece estar sesgado para sobreestimar la probabilidad de una salida de 1. Por ejemplo, en el segmento más a la izquierda, el modelo sobreestima la probabilidad en aproximadamente un 9%.
Armado con esta información, me gustaría alterar la definición de la función de una manera directa para corregir este sesgo. Alteraciones como reemplazar
o
¿Cómo puedo hacer esto? Estoy buscando una metodología general para que un humano pueda desplazarse rápidamente a través de las ~ 50 parcelas y realizar modificaciones, y hacer esto para todos los conjuntos de datos y repetir a menudo para mantener los modelos actualizados a medida que los datos evolucionan con el tiempo.
Como pregunta general, ¿es este incluso el enfoque correcto? Las búsquedas en Google de "análisis residual de regresión logística" no arrojan muchos resultados con buenos consejos prácticos. Parecen estar obsesionados con responder la pregunta: "¿Es este modelo un buen ajuste?" y ofrecen varias pruebas como Hosmer-Lemeshow para responder. Pero no me importa si mi modelo es bueno, ¡quiero saber cómo mejorarlo!
es poco probable que exista algún software general para hacer esto. muy probablemente porque no hay una teoría general para solucionar problemas en la regresión. por lo tanto, se trata más de un tipo de respuesta "lo que haría" en lugar de un procedimiento basado en la teoría.
la trama que produce es básicamente una prueba visual HL con 100 bins, pero usando un solo predictor en lugar de la probabilidad pronosticada para hacer el binning. Esto significa que es probable que su procedimiento herede algunas de las propiedades de la prueba HL.
su procedimiento parece razonable, aunque debe ser consciente de "sobreajustar" sus criterios. su criterio también es menos útil como diagnóstico porque se ha convertido en parte del proceso de estimación. Además, siempre que haga algo por intuición, debe anotar su proceso de toma de decisiones con el mayor detalle posible. Esto se debe a que puede descubrir las semillas de un proceso o teoría general, que cuando se desarrolla conduce a un mejor procedimiento (más automático y óptimo con respecto a alguna teoría).
Creo que una forma de hacerlo es reducir primero la cantidad de parcelas que necesita investigar. Una forma de hacerlo es ajustar cada variable como una spline cúbica, y luego investigar los gráficos que tienen estimaciones no lineales no nulas. Dado el número de puntos de datos, esta es también una solución automática fácil para las no linealidades. esto ampliará su modelo de 50 a 200 + 50k donde k es el número de nudos. se podría pensar que esto aplica una "expansión estadística de la serie taylor" de la transformación "verdadera".
si su imagen fija de diagnóstico se ve mal después de esto, entonces trataría de agregar términos de interacción.
partes de su pregunta parecen más sobre escribir un programa interactivo, que es más el dominio de stackoverflow que aquí. También puede ser útil buscar herramientas de análisis de datos exploratorios, ya que es más probable que tengan características que puede "aprovechar".
fuente