¿Por qué una función de pérdida 0-1 es intratable?

12

En el libro de aprendizaje profundo de Ian Goodfellow , está escrito que

A veces, la función de pérdida que realmente nos importa (por ejemplo, error de clasificación) no es una que pueda optimizarse de manera eficiente. Por ejemplo, minimizar al mínimo la pérdida esperada de 0-1 es típicamente intratable (exponencial en la dimensión de entrada), incluso para un clasificador lineal. En tales situaciones, normalmente se optimiza una función de pérdida sustitutiva, que actúa como un proxy pero tiene ventajas.

¿Por qué la pérdida 0-1 es intratable o cómo es exponencial en las dimensiones de entrada?

samra irshad
fuente

Respuestas:

18

La función de pérdida 0-1 no es convexa y es discontinua, por lo que no se pueden aplicar los métodos de (sub) gradiente. Para la clasificación binaria con un separador lineal, esta función de pérdida se puede formular como encontrar el que minimiza el valor promedio de la función del indicador sobre todas las muestras . Esto es exponencial en las entradas, ya que hay dos valores posibles para cada par, hay configuraciones posibles para verificarβ1(yiβxi0)i2nnpuntos de muestra totales. Se sabe que esto es NP-duro. Conocer el valor actual de su función de pérdida no proporciona ninguna pista sobre cómo debería modificar su solución actual para mejorar, ya que podría derivar si los métodos de gradiente para funciones convexas o continuas estuvieran disponibles.

Don walpola
fuente
1
Muy buen punto: en la práctica, la búsqueda aleatoria o la búsqueda exhaustiva son los únicos métodos que podrían usarse para encontrar el mínimo de dicha función de pérdida, ¿verdad?
DeltaIV
2
^^ o quizás métodos de inteligencia evolutivos / basados ​​en enjambres?
samra irshad
@samrairshad Sí, de hecho, la pérdida de 0-1 no es tan rara de ver en los métodos evolutivos.
John Doucette el
Antes de saltar de la búsqueda aleatoria hacia algoritmos evolutivos / enjambre complejos, verificaría el método de entropía cruzada (CEM).
maxy
1

El error de clasificación es de hecho a veces manejable. Se puede optimizar de manera eficiente, aunque no exactamente, utilizando el método Nelder-Mead, como se muestra en este artículo:

https://www.computer.org/csdl/trans/tp/1994/04/i0420-abs.html

"La reducción de dimensiones es el proceso de transformar vectores multidimensionales en un espacio de baja dimensión. En el reconocimiento de patrones, a menudo se desea que esta tarea se realice sin una pérdida significativa de información de clasificación. El error de Bayes es un criterio ideal para este propósito; sin embargo, se sabe que es notoriamente difícil para el tratamiento matemático. En consecuencia, se han utilizado criterios subóptimos en la práctica. Proponemos un criterio alternativo, basado en la estimación del error de Bayes, que esperamos sea más cercano al criterio óptimo que los criterios actualmente en uso. . Se concibe e implementa un algoritmo para la reducción de la dimensión lineal, basado en este criterio. Los experimentos demuestran su rendimiento superior en comparación con los algoritmos convencionales ".

El error de Bayes mencionado aquí es básicamente la pérdida 0-1.

Este trabajo se realizó en el contexto de la reducción de la dimensión lineal. No sé qué tan efectivo sería para entrenar redes de aprendizaje profundo. Pero el punto es, y la respuesta a la pregunta: la pérdida 0-1 no es universalmente intratable. Se puede optimizar relativamente bien para al menos algunos tipos de modelos.

ljubomir
fuente