¿Qué es la minimización de energía en el aprendizaje automático?

Estaba leyendo sobre la optimización para un problema mal planteado en la visión por computadora y encontré la explicación a continuación sobre la optimización en Wikipedia. Lo que no entiendo es, ¿por qué llaman a esta optimización " Minimización de energía " en Computer Vision?

Un problema de optimización se puede representar de la siguiente manera:

Dado: una función de algún conjunto a los números reales $f: A \to R$ $A$

Buscado: un elemento en tal que para todo en ("minimización") o tal que para todo en (" maximización"). $x_0$ $A$ $f(x_0) ≤ f(x)$ $x$ $A$ $f(x_0) ≥ f(x)$ $x$ $A$

Dicha formulación se llama un problema de optimización o un problema de programación matemática (un término que no está directamente relacionado con la programación de computadoras, pero que todavía se usa, por ejemplo, en programación lineal; consulte el Historial a continuación). Muchos problemas del mundo real y teóricos pueden modelarse en este marco general. Los problemas formulados usando esta técnica en los campos de la física y la visión por computadora pueden referirse a la técnica como minimización de energía, hablando del valor de la función como la representación de la energía del sistema que se está modelando. $f$

machine-learning optimization computer-vision iamprem
fuente

Respuestas:

Los modelos basados en energía son un marco unificado para representar muchos algoritmos de aprendizaje automático. Interpretan que la inferencia minimiza una función energética y que el aprendizaje minimiza una pérdida funcional.

La función de energía es una función de la configuración de variables latentes y la configuración de las entradas proporcionadas en un ejemplo. Inferencia generalmente significa encontrar una configuración de baja energía, o tomar muestras de la posible configuración para que la probabilidad de elegir una configuración dada sea una distribución de Gibbs.

La pérdida funcional es una función de los parámetros del modelo dados muchos ejemplos. Por ejemplo, en un problema de aprendizaje supervisado, su pérdida es el error total en los objetivos. A veces se le llama "funcional" porque es una función de la función (parametrizada) que constituye el modelo.

Papel mayor:

Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato y FJ Huang, "Un tutorial sobre aprendizaje basado en la energía", en Predicting Structured Data, MIT Press, 2006.

Ver también:

LeCun, Y. y Huang, FJ (2005). Funciones de pérdida para la capacitación discriminativa de modelos basados en energía. En Actas del 10º Taller Internacional sobre Inteligencia Artificial y Estadística (AIStats'05). Recuperado de http://yann.lecun.com/exdb/publis/pdf/lecun-huang-05.pdf

Ranzato, M., Boureau, Y.-L., Chopra, S. y LeCun, Y. (2007). Un marco unificado basado en la energía para el aprendizaje no supervisado. Proc. Conferencia sobre IA y estadísticas (AI-Stats). Recuperado de http://dblp.uni-trier.de/db/journals/jmlr/jmlrp2.html#RanzatoBCL07

Neil G
fuente

¿Puede ampliar lo que significa "Interpretan la inferencia como minimizar una función de energía y aprender como minimizar una función de pérdida"? ¿Cómo es una función de energía diferente de una función de pérdida?

Cliff AB

¿Podría por favor elaborar su respuesta

Iamprem

@CliffAB Espero que sea más claro?

Neil G

@NeilG: para ser honesto, todavía estoy un poco confundido. Para mí, parece que la "función de energía" es esencialmente lo mismo que la función de probabilidad en las estadísticas. ¿Es una interpretación razonable o me estoy perdiendo algo más sutil?

Cliff AB

@CliffAB: La función de energía puede ser la probabilidad logarítmica, en cuyo caso la energía exponencial total es una. Sin embargo, eso ni siquiera es necesario: los modelos basados en energía no probabilísticos no se preocupan por esta normalización, lo que puede hacer que su aprendizaje sea más eficiente que los modelos probabilísticos. Esto se debe a que evita evaluar integrales costosas sobre el espacio de configuración.

Neil G

$x_t$

E = Σ x_{t}^{2}

$E = \Sigma x_t^2$

S S mi = Σ (y - \hat{y})^{2}

$SSE= \Sigma (y-\hat{y})^2$

\hat{y}

$\hat{y}$

Stan
fuente

Creo que estás confundiendo la pérdida con la energía

Neil G

Estoy usando la definición estándar de energía del procesamiento de señales . Las personas de informática / aprendizaje automático tienden a redefinir los términos, supongo. Vengo de estadísticas y antecedentes de procesamiento de señales

Stan

Tu primera fórmula es una función energética. La segunda fórmula es la función de pérdida, ya que no es una función de la configuración.

Neil G

@Neil Estoy seguro de que está utilizando la terminología correctamente como se define en los documentos que citó. Es solo una terminología diferente a la que estoy acostumbrado, donde SSE es energía

Stan