¿Qué función de pérdida se debe usar para obtener un clasificador binario de alta precisión o alta recuperación?

11

Estoy tratando de hacer un detector de objetos que ocurren muy raramente (en imágenes), planeando usar un clasificador binario CNN aplicado en una ventana deslizante / redimensionada. He construido entrenamientos balanceados positivos y negativos 1: 1 y conjuntos de pruebas (¿es correcto hacerlo en este caso por cierto?), Y el clasificador está funcionando bien en un conjunto de pruebas en términos de precisión. Ahora quiero controlar la recuperación / precisión de mi clasificador para que, por ejemplo, no etiquete erróneamente demasiadas ocurrencias de clase mayoritaria.

La solución obvia (para mí) es usar la misma pérdida logística que se usa ahora, pero los errores de tipo I y tipo II de peso de manera diferente al multiplicar la pérdida en uno de los dos casos en alguna constante, que se puede ajustar. ¿Es correcto?

PD: Pensándolo bien, esto equivale a ponderar algunas muestras de entrenamiento más que otras. Solo agregar más de una clase logrará lo mismo, creo.

Dzugaru
fuente
¿Alguna vez resolviste esto? Tengo un objetivo similar. Me gustaría optimizar la precisión (tipo 1) y preocuparme menos por los errores tipo 2, por lo que he estado considerando qué se puede hacer con respecto a la función de pérdida.
Jonathan Shore

Respuestas:

6

Construir artificialmente un conjunto de entrenamiento equilibrado es discutible, bastante controvertido en realidad. Si lo hace, debe verificar empíricamente que realmente funciona mejor que dejar el conjunto de entrenamiento desequilibrado. Equilibrar artificialmente el conjunto de pruebas casi nunca es una buena idea. El conjunto de prueba debe representar nuevos puntos de datos a medida que entran sin etiquetas. Espera que estén desequilibrados, por lo que debe saber si su modelo puede manejar un conjunto de pruebas no equilibrado. (Si no espera que los nuevos registros estén desequilibrados, ¿por qué todos sus registros existentes están desequilibrados?)

Con respecto a su métrica de rendimiento, siempre obtendrá lo que pide. Si la precisión no es lo que necesita principalmente en un conjunto desequilibrado, porque no solo las clases sino también los costos de clasificación errónea no están equilibrados, entonces no lo use. Si ha utilizado la precisión como métrica y ha realizado toda la selección de modelos y el ajuste de hiperparámetros al tomar siempre el que tiene la mejor precisión, está optimizando la precisión.

Tomo la clase minoritaria como la clase positiva, esta es la forma convencional de nombrarlos. Por lo tanto, la precisión y el recuerdo como se discute a continuación son la precisión y el recuerdo de la clase minoritaria.

  • Si lo único importante es identificar todos los registros de las clases minoritarias, puede recuperarlos. Por lo tanto, estás aceptando más falsos positivos.
  • Optimizar solo la precisión sería una idea muy extraña. Le diría a su clasificador que no es un problema subdetectar la clase minoritaria. La forma más fácil de tener una alta precisión es ser demasiado cauteloso al declarar la clase minoritaria.
  • Si necesita precisión y recuperación, puede tomar la medida F. Es la media armónica entre precisión y recuperación y, por lo tanto, penaliza los resultados donde ambas métricas divergen.
  • Si conoce los costos concretos de clasificación errónea en ambas direcciones (y los beneficios de una clasificación correcta si son diferentes por clase), puede poner todo eso en una función de pérdida y optimizarlo.
David Ernst
fuente
3

Estás haciendo varias suposiciones. Es mejor pensar en el objetivo final en términos generales, luego formular una estrategia que cumpla ese objetivo. Por ejemplo, ¿realmente necesita una clasificación de elección forzada y la señal: relación de ruido es lo suficientemente grande como para soportar eso (buenos ejemplos: reconocimiento de sonido e imagen)? ¿O la señal: relación de ruido es baja o le interesan las tendencias ? Para este último, la estimación del riesgo es para usted. La elección es clave y dicta la métrica de precisión predictiva que elija. Para obtener más ideas sobre todo esto, visite http://www.fharrell.com/2017/01/classification-vs-prediction.html y http://www.fharrell.com/2017/03/damage-caused-by-classification .html .

La mayoría de los problemas se refieren a la toma de decisiones , y las decisiones óptimas provienen de la estimación del riesgo junto con una función de pérdida / costo / utilidad.

Uno de los mejores aspectos de un enfoque de estimación de riesgo (probabilidad) es que maneja zonas grises donde sería un error hacer una clasificación o decisión sin obtener más datos. Y luego está el hecho de que la estimación de probabilidad no requiere (ni siquiera permite) que uno "equilibre" los resultados manipulando artificialmente la muestra.

Frank Harrell
fuente
1

Con respecto a su pregunta sobre si volver a ponderar las muestras de entrenamiento es equivalente a multiplicar la pérdida en uno de los dos casos por una constante: sí, lo es. Una forma de escribir la función de pérdida de regresión logística es donde y denotan las respectivas instancias positivas y negativas, y es el clasificador logístico construido a partir de las características . Si desea dar más peso a sus instancias negativas, por ejemplo, es posible que desee modificar su pérdida como

j=1Jlog{1+exp[f(xj)]}+k=1Klog{1+exp[f(xk)]}
jkf()x
w>1ww=2
j=1Jlog{1+exp[f(xj)]}+k=1Kwlog{1+exp[f(xk)]}
para algunos . Esta función de pérdida se minimiza mediante implementaciones de software de regresión logística ponderada, pero también puede llegar a la misma respuesta al aumentar sus instancias negativas por un factor de y ajustar una regresión logística estándar (por ejemplo, si , entonces crea 2 copias de cada instancia negativa y ajuste). Algunos detalles adicionales sobre este tipo de enfoque aquí . Y hay una advertencia general sobre lo que sucede con los errores estándar de los parámetros aquí , pero esto puede no ser una preocupación si solo está haciendo predicciones.w>1ww=2
Travis Gerke
fuente
Pero eso ya no sería un estimador de máxima verosimilitud - un estadístico no-no
Frank Harrell
1
De acuerdo, pero no estoy convencido de que sea importante si la inferencia estadística sobre los parámetros en la regresión logística no es el objetivo deseado (la mención del OP de usar CNN tampoco está basada en ML). De hecho, la mayoría / todos los resultados inferenciales de este enfoque ponderado se ignorarían mejor, pero el modelo y las puntuaciones de riesgo resultantes aún podrían aplicarse a un conjunto de validación con resultados deseables, por ejemplo, buena discriminación / calibración.
Travis Gerke
1
No, perturbará la calibración del modelo y obtendrá estimaciones de parámetros más ruidosas con el enfoque anterior. MLE existe por algunas muy buenas razones.
Frank Harrell
Considere el caso trivial de estar muy preocupado por la clasificación errónea de una manera, pero no de la otra, es decir, pérdida cero para una de las direcciones. El mejor modelo para esa pérdida solo predeciría la clase de preocupación. Aunque sería un modelo horrible, el objetivo se logra. Es importante comprender el objetivo y no poner fe ciega en un concepto teórico (MLE) sin comprender su propósito. Como señaló TravisGerke, si el énfasis está en la predicción más que en el modelado, entonces su enfoque es bastante útil. Ciertamente es mejor que reducir la clase de la mayoría.
Statseeker