Bien, entonces creo que tengo una muestra lo suficientemente decente, teniendo en cuenta la regla general 20: 1: una muestra bastante grande (N = 374) para un total de 7 variables predictoras candidatas.
Mi problema es el siguiente: cualquiera que sea el conjunto de variables predictoras que utilizo, las clasificaciones nunca mejoran que una especificidad del 100% y una sensibilidad del 0%. Sin embargo, insatisfactorio, este podría ser el mejor resultado posible, dado el conjunto de variables predictoras candidatas (de las cuales no puedo desviarme).
Pero no pude evitar pensar que podría hacerlo mejor, así que noté que las categorías de la variable dependiente estaban bastante equilibradas, casi 4: 1. ¿Podría una submuestra más equilibrada mejorar las clasificaciones?
Respuestas:
Equilibrio en el conjunto de entrenamiento
Para los modelos de regresión logística, los datos de entrenamiento desequilibrados afectan solo la estimación de la intercepción del modelo (aunque esto, por supuesto, sesga todas las probabilidades predichas, lo que a su vez compromete sus predicciones). Afortunadamente, la corrección de la intersección es sencilla: siempre que conozca, o pueda adivinar, la verdadera proporción de 0s y 1s y conozca las proporciones en el conjunto de entrenamiento, puede aplicar una corrección de eventos raros a la intersección. Los detalles se encuentran en King y Zeng (2001) [ PDF ].
Estas 'correcciones de eventos raros' se diseñaron para diseños de investigación de control de casos, utilizados principalmente en epidemiología, que seleccionan casos eligiendo un número fijo, generalmente equilibrado de 0 casos y 1 casos, y luego necesitan corregir el sesgo de selección de muestra resultante. De hecho, puede entrenar a su clasificador de la misma manera. Elija una buena muestra equilibrada y luego corrija la intersección para tener en cuenta el hecho de que ha seleccionado en la variable dependiente para aprender más sobre las clases más raras de lo que una muestra aleatoria podría decirle.
Haciendo predicciones
Sobre un tema relacionado pero distinto: no olvide que debe realizar un umbral inteligente para hacer predicciones. No siempre es mejor predecir 1 cuando la probabilidad del modelo es mayor 0.5. Otro umbral puede ser mejor. Para este fin, debe examinar las curvas de características de funcionamiento del receptor (ROC) de su clasificador, no solo su éxito predictivo con un umbral de probabilidad predeterminado.
fuente
predict
y calcule para cada una si es mayor que el nuevo umbral.El problema no es que las clases estén desequilibradas per se, es que puede no haber suficientes patrones pertenecientes a la clase minoritaria para representar adecuadamente su distribución. Esto significa que el problema puede surgir para cualquier clasificador (incluso si tiene un problema sintético y sabe que tiene el modelo verdadero), no solo la regresión logística. Lo bueno es que a medida que hay más datos disponibles, el problema del "desequilibrio de clases" generalmente desaparece. Dicho esto, 4: 1 no es todo lo que desequilibra.
Si usa un conjunto de datos equilibrado, lo importante es recordar que la salida del modelo ahora es una estimación de la probabilidad a posteriori, suponiendo que las clases son igualmente comunes, por lo que puede terminar sesgando el modelo demasiado. Pondría los patrones que pertenecen a cada clase de manera diferente y elegiría los pesos minimizando la entropía cruzada en un conjunto de prueba con las frecuencias de clase operativa correctas.
fuente
If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Piense en las distribuciones subyacentes de las dos muestras. ¿Tiene suficiente muestra para medir ambas subpoblaciones sin una gran cantidad de sesgo en la muestra más pequeña?
Ver aquí para una explicación más larga.
https://statisticalhorizons.com/logistic-regression-for-rare-events
fuente