Tengo una tarea de clasificación en la que tengo varios predictores (uno de los cuales es el más informativo), y estoy usando el modelo MARS para construir mi clasificador (estoy interesado en cualquier modelo simple, y usar glms con fines ilustrativos sería bien también). Ahora tengo un gran desequilibrio de clase en los datos de entrenamiento (alrededor de 2700 muestras negativas para cada muestra positiva). Al igual que las tareas de recuperación de información, estoy más preocupado por predecir las muestras de prueba positivas de mejor clasificación. Por esta razón, el rendimiento en las curvas de Precision Recall es importante para mí.
En primer lugar, simplemente entrené el modelo en mis datos de entrenamiento manteniendo el desequilibrio de clase tal como está. Visualizo mi modelo entrenado en rojo, y la entrada más importante en azul.
Capacitación sobre datos no balanceados, evaluación sobre datos no balanceados :
Pensando que el desequilibrio de clase está desestabilizando el modelo, ya que aprender las muestras positivas de más alto rango es una parte minúscula de todo el conjunto de datos, realicé un muestreo de los puntos de entrenamiento positivos para obtener un conjunto equilibrado de datos de entrenamiento. Cuando trazo el rendimiento en el conjunto de entrenamiento equilibrado , obtengo un buen rendimiento. Tanto en las curvas PR como ROC, mi modelo entrenado funciona mejor que las entradas.
Capacitación sobre datos balanceados (muestreados), evaluación también sobre datos balanceados (muestreados):
Sin embargo, si uso este modelo entrenado en los datos balanceados, para predecir sobre el conjunto de entrenamiento original y no balanceado, todavía obtengo un mal desempeño en la curva PR.
Capacitación sobre datos balanceados (muestreados), evaluación sobre datos originales no balanceados:
Entonces mis preguntas son:
- ¿Es la razón por la que la visualización de la curva PR muestra un rendimiento inferior de mi modelo entrenado (rojo), mientras que la curva ROC muestra mejoras debido al desequilibrio de clase?
- ¿Pueden los enfoques de remuestreo / muestreo ascendente / muestreo descendente resolver esto para obligar a la capacitación a centrarse en la región de alta precisión / baja memoria?
- ¿Hay alguna otra forma de enfocar el entrenamiento en la región de alta precisión / baja recuperación?
Respuestas:
PD Problema ordenado; Me encantaría saber cómo resulta.
fuente
Un estudio reciente " Una visión de la clasificación con datos desequilibrados: resultados empíricos y tendencias actuales sobre el uso de características intrínsecas de datos " compara tres métodos de clasificación mejorada en datos no equilibrados:
fuente
Quería llamar la atención sobre el hecho de que los últimos 2 experimentos están utilizando el mismo modelo en casi el mismo conjunto de datos. La diferencia en el rendimiento no es la diferencia del modelo, se explica por diferentes distribuciones del conjunto de datos de validación y las propiedades de METRICS particulares utilizados: precisión y recuperación, que dependen en gran medida de esa distribución. Para elaborar este punto un poco más, si tomó X entradas distintas de su conjunto de datos de validación inicial y replicó la clase minoritaria para el conjunto de datos escalado, su modelo hará las mismas predicciones para esas entradas X, correctas o incorrectas, tanto en escalado como no balanceado conjuntos de datos de validación. La única diferencia es que para cada falso positivo habrá menos positivos verdaderos en el conjunto de datos inicial (por lo tanto, menor precisión) y más positivos verdaderos en el conjunto de datos equilibrado (simplemente debido al hecho de que hay más ejemplos positivos en el conjunto de datos en general) . Es por eso que se dice que Precision and Recall son sensibles al sesgo. Por otro lado, como ilustran también sus experimentos, ROC no cambia. Esto se puede observar observando también su definición. Es por eso que se dice que ROC no es sensible al sesgo.
Todavía no tengo buenas respuestas para los puntos 2 y 3, ya que las estoy buscando :)
fuente
Suponiendo que las muestras positivas muestreadas tienen la "misma distribución" que en el "conjunto original". A medida que aumenta el número de muestras positivas, ocurren pocos cambios
1) el número de TruePositives (TP) aumenta para "todos los umbrales" y, como resultado, las relaciones TP / (TP + FP) y TP / (TP + FN) aumentan para todos los umbrales. De modo que el área bajo PRC está aumentando.
2) la precisión esperada, también llamada precisión del modelo "tonto", aumenta de ~ 1/2700 (en el conjunto original) a ~ 1/2 (en caso de equilibrio "ideal"). Suponiendo que su modelo funciona mejor que el modelo "tonto" significa que el área bajo la curva será más de 0.00037 en el "conjunto original" y más de 0.5 en el conjunto idealmente equilibrado.
3) mientras se entrena el modelo en un conjunto de datos mejorado, algunos modelos pueden "sobreajustar" muestras positivas.
Con respecto a las curvas ROC, se sabe que las curvas ROC muestran poco efecto de las variaciones de distribución de clase (el aumento de escala tiene un efecto muy pequeño en FPR, mientras que puede ver algún efecto en TPR).
Con respecto al enfoque en la región de alta precisión / baja recuperación, puede optimizar con respecto a una función de costo donde los falsos positivos son penalizados más que los falsos negativos.
fuente