En el libro de aprendizaje profundo de Ian Goodfellow , está escrito que
A veces, la función de pérdida que realmente nos importa (por ejemplo, error de clasificación) no es una que pueda optimizarse de manera eficiente. Por ejemplo, minimizar al mínimo la pérdida esperada de 0-1 es típicamente intratable (exponencial en la dimensión de entrada), incluso para un clasificador lineal. En tales situaciones, normalmente se optimiza una función de pérdida sustitutiva, que actúa como un proxy pero tiene ventajas.
¿Por qué la pérdida 0-1 es intratable o cómo es exponencial en las dimensiones de entrada?
fuente
El error de clasificación es de hecho a veces manejable. Se puede optimizar de manera eficiente, aunque no exactamente, utilizando el método Nelder-Mead, como se muestra en este artículo:
https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html
"La reducción de dimensiones es el proceso de transformar vectores multidimensionales en un espacio de baja dimensión. En el reconocimiento de patrones, a menudo se desea que esta tarea se realice sin una pérdida significativa de información de clasificación. El error de Bayes es un criterio ideal para este propósito; sin embargo, se sabe que es notoriamente difícil para el tratamiento matemático. En consecuencia, se han utilizado criterios subóptimos en la práctica. Proponemos un criterio alternativo, basado en la estimación del error de Bayes, que esperamos sea más cercano al criterio óptimo que los criterios actualmente en uso. . Se concibe e implementa un algoritmo para la reducción de la dimensión lineal, basado en este criterio. Los experimentos demuestran su rendimiento superior en comparación con los algoritmos convencionales ".
El error de Bayes mencionado aquí es básicamente la pérdida 0-1.
Este trabajo se realizó en el contexto de la reducción de la dimensión lineal. No sé qué tan efectivo sería para entrenar redes de aprendizaje profundo. Pero el punto es, y la respuesta a la pregunta: la pérdida 0-1 no es universalmente intratable. Se puede optimizar relativamente bien para al menos algunos tipos de modelos.
fuente