¿Importa una muestra desequilibrada al hacer una regresión logística?

81

Bien, entonces creo que tengo una muestra lo suficientemente decente, teniendo en cuenta la regla general 20: 1: una muestra bastante grande (N = 374) para un total de 7 variables predictoras candidatas.

Mi problema es el siguiente: cualquiera que sea el conjunto de variables predictoras que utilizo, las clasificaciones nunca mejoran que una especificidad del 100% y una sensibilidad del 0%. Sin embargo, insatisfactorio, este podría ser el mejor resultado posible, dado el conjunto de variables predictoras candidatas (de las cuales no puedo desviarme).

Pero no pude evitar pensar que podría hacerlo mejor, así que noté que las categorías de la variable dependiente estaban bastante equilibradas, casi 4: 1. ¿Podría una submuestra más equilibrada mejorar las clasificaciones?

Michiel
fuente
55
Es difícil imaginar cómo podría ser esto. ¿Quizás estás cortando la probabilidad pronosticada a 0.5? Si es así, intente variar el límite.
Aniko
44
El área bajo la curva ROC es .585, un resultado bastante pobre. Esto implica que realmente no hay un valor de corte donde la compensación de especificidad / sensibilidad valga la pena. Jugar con el corte no mejorará mucho las clasificaciones, ya que solo disminuiría la especificidad aproximadamente tanto como aumenta la sensibilidad.
Michiel
3
¿Alguno de los coeficientes de las Variables es significativamente diferente de (digamos más de cinco errores estándar)? Si no, su problema podría ser que simplemente no tiene mucho poder explicativo con su conjunto de variables. 0
probabilidad es
2
Tenga en cuenta también que el tamaño de su muestra en términos de hacer buenas predicciones es realmente el número de patrones únicos en la variable predictora, y no el número de individuos muestreados. Por ejemplo, un modelo con una sola variable predictiva categórica con dos niveles solo puede ajustarse a un modelo de regresión logística con dos parámetros (uno para cada categoría), incluso si hay millones de personas en la muestra.
chanceislogic
Relacionado: stats.stackexchange.com/questions/67903
ameba dice Reinstate Monica el

Respuestas:

75

Equilibrio en el conjunto de entrenamiento

Para los modelos de regresión logística, los datos de entrenamiento desequilibrados afectan solo la estimación de la intercepción del modelo (aunque esto, por supuesto, sesga todas las probabilidades predichas, lo que a su vez compromete sus predicciones). Afortunadamente, la corrección de la intersección es sencilla: siempre que conozca, o pueda adivinar, la verdadera proporción de 0s y 1s y conozca las proporciones en el conjunto de entrenamiento, puede aplicar una corrección de eventos raros a la intersección. Los detalles se encuentran en King y Zeng (2001) [ PDF ].

Estas 'correcciones de eventos raros' se diseñaron para diseños de investigación de control de casos, utilizados principalmente en epidemiología, que seleccionan casos eligiendo un número fijo, generalmente equilibrado de 0 casos y 1 casos, y luego necesitan corregir el sesgo de selección de muestra resultante. De hecho, puede entrenar a su clasificador de la misma manera. Elija una buena muestra equilibrada y luego corrija la intersección para tener en cuenta el hecho de que ha seleccionado en la variable dependiente para aprender más sobre las clases más raras de lo que una muestra aleatoria podría decirle.

Haciendo predicciones

Sobre un tema relacionado pero distinto: no olvide que debe realizar un umbral inteligente para hacer predicciones. No siempre es mejor predecir 1 cuando la probabilidad del modelo es mayor 0.5. Otro umbral puede ser mejor. Para este fin, debe examinar las curvas de características de funcionamiento del receptor (ROC) de su clasificador, no solo su éxito predictivo con un umbral de probabilidad predeterminado.

conjugadoprior
fuente
8
Si no conoce las frecuencias de la clase operativa, EM puede estimarlas sin conocer las etiquetas de las muestras de prueba / operativas. Los detalles están en Saerens et al. "Ajuste de las salidas de un clasificador a nuevas probabilidades a priori: un procedimiento simple", Computación neuronal, vol. 14, no. 1, págs. 21-41, 2002 ( dx.doi.org/10.1162/089976602753284446 ). Lo he usado un par de veces y me impresionó lo bien que funcionó. Sin embargo, tenga en cuenta que la corrección teórica no suele ser óptima, y ​​establecerla mediante, por ejemplo, la validación cruzada suele ser mejor.
Dikran Marsupial
Sí, debería haber mencionado que los resultados de la curva ROC tampoco fueron convincentes. En este caso, creo que no hay un umbral que dé resultados satisfactorios.
Michiel
En cuanto a hacer predicciones: ¿cómo puedo tener en cuenta el tamaño de mi conjunto de entrenamiento para los resultados 0 y 1? De hecho, no quiero usar el umbral de 0.5, pero no estoy seguro de cómo hacerlo en R.
Perlnika
1
@Perlnika Los detalles están en el enlace de papel (en el caso más simple, cambia la intercepción estimada). Para un umbral no de 0.5, solo obtenga las probabilidades predichas usando predicty calcule para cada una si es mayor que el nuevo umbral.
conjugateprior
1
@SassaNF Es cierto que un cambio de intercepción puede compensarse con un cambio de umbral. Sin embargo, eso combina su estimación de probabilidad (inferencia) con el costo relativo de los errores (función de pérdida), mientras que este último puede diferir en las aplicaciones. Por ejemplo, cuando el costo de confundir un 1 con un 0 es C multiplicado por el costo de confundir un 0 con un 1, entonces querrá limitar su probabilidad estimada a 1 / (1 + C).
conjugateprior
41

El problema no es que las clases estén desequilibradas per se, es que puede no haber suficientes patrones pertenecientes a la clase minoritaria para representar adecuadamente su distribución. Esto significa que el problema puede surgir para cualquier clasificador (incluso si tiene un problema sintético y sabe que tiene el modelo verdadero), no solo la regresión logística. Lo bueno es que a medida que hay más datos disponibles, el problema del "desequilibrio de clases" generalmente desaparece. Dicho esto, 4: 1 no es todo lo que desequilibra.

Si usa un conjunto de datos equilibrado, lo importante es recordar que la salida del modelo ahora es una estimación de la probabilidad a posteriori, suponiendo que las clases son igualmente comunes, por lo que puede terminar sesgando el modelo demasiado. Pondría los patrones que pertenecen a cada clase de manera diferente y elegiría los pesos minimizando la entropía cruzada en un conjunto de prueba con las frecuencias de clase operativa correctas.

Dikran Marsupial
fuente
66
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Zhubarb
2

Piense en las distribuciones subyacentes de las dos muestras. ¿Tiene suficiente muestra para medir ambas subpoblaciones sin una gran cantidad de sesgo en la muestra más pequeña?

Ver aquí para una explicación más larga.

https://statisticalhorizons.com/logistic-regression-for-rare-events

Paul Tulloch
fuente
55
Esto no parece responder a la pregunta.
Michael Chernick
¡Eso es porque no hay una respuesta definitiva! Se trata de cómo aplicarlo y la cantidad de sesgo que uno está dispuesto a permitir en el proceso de estimación.
Paul Tulloch
1
Creo que esta es una gran respuesta. Hasta donde yo entiendo, todos los intentos de corregir el desequilibrio dependen de algunos conocimientos externos que no se capturaron en el experimento. En particular, conocer la distribución subyacente ayudaría con las correcciones.
user1700890