Estoy tratando de hacer un detector de objetos que ocurren muy raramente (en imágenes), planeando usar un clasificador binario CNN aplicado en una ventana deslizante / redimensionada. He construido entrenamientos balanceados positivos y negativos 1: 1 y conjuntos de pruebas (¿es correcto hacerlo en este caso por cierto?), Y el clasificador está funcionando bien en un conjunto de pruebas en términos de precisión. Ahora quiero controlar la recuperación / precisión de mi clasificador para que, por ejemplo, no etiquete erróneamente demasiadas ocurrencias de clase mayoritaria.
La solución obvia (para mí) es usar la misma pérdida logística que se usa ahora, pero los errores de tipo I y tipo II de peso de manera diferente al multiplicar la pérdida en uno de los dos casos en alguna constante, que se puede ajustar. ¿Es correcto?
PD: Pensándolo bien, esto equivale a ponderar algunas muestras de entrenamiento más que otras. Solo agregar más de una clase logrará lo mismo, creo.
Respuestas:
Construir artificialmente un conjunto de entrenamiento equilibrado es discutible, bastante controvertido en realidad. Si lo hace, debe verificar empíricamente que realmente funciona mejor que dejar el conjunto de entrenamiento desequilibrado. Equilibrar artificialmente el conjunto de pruebas casi nunca es una buena idea. El conjunto de prueba debe representar nuevos puntos de datos a medida que entran sin etiquetas. Espera que estén desequilibrados, por lo que debe saber si su modelo puede manejar un conjunto de pruebas no equilibrado. (Si no espera que los nuevos registros estén desequilibrados, ¿por qué todos sus registros existentes están desequilibrados?)
Con respecto a su métrica de rendimiento, siempre obtendrá lo que pide. Si la precisión no es lo que necesita principalmente en un conjunto desequilibrado, porque no solo las clases sino también los costos de clasificación errónea no están equilibrados, entonces no lo use. Si ha utilizado la precisión como métrica y ha realizado toda la selección de modelos y el ajuste de hiperparámetros al tomar siempre el que tiene la mejor precisión, está optimizando la precisión.
Tomo la clase minoritaria como la clase positiva, esta es la forma convencional de nombrarlos. Por lo tanto, la precisión y el recuerdo como se discute a continuación son la precisión y el recuerdo de la clase minoritaria.
fuente
Estás haciendo varias suposiciones. Es mejor pensar en el objetivo final en términos generales, luego formular una estrategia que cumpla ese objetivo. Por ejemplo, ¿realmente necesita una clasificación de elección forzada y la señal: relación de ruido es lo suficientemente grande como para soportar eso (buenos ejemplos: reconocimiento de sonido e imagen)? ¿O la señal: relación de ruido es baja o le interesan las tendencias ? Para este último, la estimación del riesgo es para usted. La elección es clave y dicta la métrica de precisión predictiva que elija. Para obtener más ideas sobre todo esto, visite http://www.fharrell.com/2017/01/classification-vs-prediction.html y http://www.fharrell.com/2017/03/damage-caused-by-classification .html .
La mayoría de los problemas se refieren a la toma de decisiones , y las decisiones óptimas provienen de la estimación del riesgo junto con una función de pérdida / costo / utilidad.
Uno de los mejores aspectos de un enfoque de estimación de riesgo (probabilidad) es que maneja zonas grises donde sería un error hacer una clasificación o decisión sin obtener más datos. Y luego está el hecho de que la estimación de probabilidad no requiere (ni siquiera permite) que uno "equilibre" los resultados manipulando artificialmente la muestra.
fuente
Con respecto a su pregunta sobre si volver a ponderar las muestras de entrenamiento es equivalente a multiplicar la pérdida en uno de los dos casos por una constante: sí, lo es. Una forma de escribir la función de pérdida de regresión logística es donde y denotan las respectivas instancias positivas y negativas, y es el clasificador logístico construido a partir de las características . Si desea dar más peso a sus instancias negativas, por ejemplo, es posible que desee modificar su pérdida como
w>1ww=2
fuente