Siempre que se utiliza la regularización, a menudo se agrega a la función de costo, como en la siguiente función de costo. Esto tiene sentido intuitivo para mí ya que minimiza la función de costo significa minimizar el error (el término izquierdo) y minimizar las magnitudes de los coeficientes (el término correcto) al mismo tiempo (o al menos equilibrar las dos minimizaciones).
Mi pregunta es ¿por qué este término de regularización agrega a la función de costo original y no se multiplica o algo más que mantiene el espíritu de motivación detrás de la idea de la regularización? ¿Es porque si simplemente agregamos el término en él es suficientemente simple y nos permite resolver esto analíticamente o hay alguna razón más profunda?
regularization
Grenmester
fuente
fuente
Respuestas:
Tiene una intuición bastante agradable en el marco bayesiano. Considere que la función de costo regularizadoJ tiene una función similar a la probabilidad de una configuración de parámetros θ dadas las observaciones X,y . Aplicando el teorema de Bayes, obtenemos:
Tomar el registro de la expresión nos da:
Ahora, digamos que es el negativo 1 log-posterior, . Como el último término no depende de , podemos omitirlo sin cambiar el mínimo. Te quedan dos términos: 1) el término de probabilidad dependiendo de e , y 2) el término anterior dependiendo solo de . Estos dos términos corresponden exactamente al término de datos y al término de regularización en su fórmula.J(θ) −logP(θ|X,y) θ logP(X,y|θ) X y logP(θ) θ
Puede ir aún más lejos y demostrar que la función de pérdida que publicó corresponde exactamente al siguiente modelo:
donde los parámetros provienen de una distribución gaussiana de media cero y las observaciones tienen ruido gaussiano de media cero. Para más detalles ver esta respuesta .θ y
1 Negativo ya que desea maximizar la probabilidad pero minimizar el costo.
fuente
Jan y Cagdas dan una buena razón bayesiana, interpretando el regularizador como un prior. Aquí hay algunos no bayesianos:
Si su objetivo no regularizado es convexo y agrega un regularizador convexo, su objetivo total seguirá siendo convexo. Esto no será cierto si lo multiplica, o la mayoría de los otros métodos de combinación. La optimización convexa es realmente muy buena en comparación con la optimización no convexa; Si la formulación convexa funciona, es mejor hacerlo.
A veces conduce a una forma cerrada muy simple, como wpof menciona es el caso de la regresión de cresta.
Si piensa en el problema que "realmente" quiere resolver como un problema con una restricción fuerte entonces su dual de Lagrange es el problema Aunque no tiene que usar la dualidad de Lagrange, se entiende mucho al respecto.
Como mencionó ogogmad , el teorema del representador se aplica al caso de una penalización aditiva: si desea optimizar en todo el espacio de funciones del núcleo de reproducción Hilbert , entonces sabemos que la solución a la optimización en todo el espacio encuentra en un simple subespacio de dimensión finita para muchas pérdidas ; No sé si esto sería válido para un regularizador multiplicativo (aunque podría). Esta es la base de los SVM del kernel.f H
Si estás haciendo un aprendizaje profundo o algo no convexo de todos modos: las pérdidas aditivas dan gradientes aditivos simples. Para el simple regularizador que le diste, se convierte en una pérdida de peso muy simple . Pero incluso para un regularizador más complicado, por ejemplo el WGAN-GP 's pérdida es más fácil para la retropropagación calcular gradientes cuando solo tiene que considerar la suma de la pérdida y el complicado regularizador (considerando las cosas por separado), en lugar de tener que Hacer la regla del producto.L2
Las pérdidas aditivas también son susceptibles al algoritmo de optimización ADMM popular y otros algoritmos basados en "descomposición".
Ninguna de estas son reglas estrictas, y de hecho a veces un regularizador multiplicativo (o algún otro) podría funcionar mejor (como señala ogogmad ). (¡De hecho, el otro día presenté un documento sobre cómo algo que podría interpretar como un regularizador multiplicativo funciona mejor que el aditivo WGAN-GP anterior!) Pero espero que esto ayude a explicar por qué los regularizadores aditivos son "el valor predeterminado".
fuente
Desea minimizar ambos términos en la función objetivo. Por lo tanto, debe desacoplar los términos. Si multiplica los términos, puede tener un término grande y el otro muy bajo. Entonces, todavía terminas con un valor bajo de la función objetivo, pero con un resultado indeseable.
Puede terminar con un modelo que tiene la mayoría de las variables cercanas a cero sin poder predictivo.
La función objetivo, que es la función que debe minimizarse, puede construirse como la suma de la función de costo y los términos de regularización.
En caso de que ambos sean independientes entre sí, obtendrá los valores ilustrados en la primera figura para el objetivo. Verá en el caso de la suma, solo hay un mínimo en (0, 0). En el caso del producto tienes ambigüedad. Tiene toda una hiper-superficie igual a cero en (x = 0 o y = 0). Entonces, el algoritmo de optimización puede terminar en cualquier lugar dependiendo de su inicialización. Y no puede decidir qué solución es mejor.
fuente
Puede probar otras operaciones binarias ( ) y ver cómo se comparan.max,min,×
El problema con y es que si el error es , la penalización regularizada será . Esto permite que el modelo se sobreajuste.min × 0 0
El problema con es que terminas minimizando la "más dura" de las dos penalizaciones (error de entrenamiento o regularización) pero no la otra.max
Por el contrario, es simple y funciona.+
Puede preguntar por qué no otras operaciones binarias. No hay argumento que pueda descartarlos, entonces, ¿por qué no?
fuente
Creo que tienes una pregunta válida. Para darle una respuesta adecuada, deberá comprender la naturaleza probabilística del problema.
En general, el problema que estamos tratando de resolver es el siguiente: Dados los datos ¿cuál es la distribución de hipótesis que explica estos datos? Cuando decimos hipótesis nos referimos a un PDF (al menos en este contexto). Y una distribución de hipótesis es un PDF de PDF, es decir, .D p(H|D)
Ahora, si tomamos el de ambos lados de la ecuación de Bayes, obtenemos:−log
Por lo general, es difícil de calcular. Lo bueno es que no afecta el resultado. Es simplemente una constante de normalización.p(D)
Ahora, por ejemplo, si nuestro conjunto de hipótesis es un grupo de gaussianos con donde no sabemos , pero suponga saber (o al menos suponga que es una constante), y además, las hipótesis mismas se distribuyen como gaussianas con luego enchufar todo lo anterior se parece a:p(D|H) p(y|X,θ)∼N(θX,σ) θ σ p(H)=p(θ)∼N(0,α−1I)
Ahora, si minimizamos esta expresión, encontramos la hipótesis con la mayor probabilidad. Las constantes no afectan la minimización. Esta es la expresión en tu pregunta.
El hecho de que usemos gaussianos no cambia el hecho de que el término de regularización es adicional. Debe ser aditivo (en términos logarítmicos o multiplicativo en probabilidades), no hay otra opción. Lo que cambiará si usamos otras distribuciones son los componentes de la adición. La función de costo / pérdida que ha proporcionado es óptima para un escenario específico de gaussianos.
fuente
Ridge es una formulación muy conveniente. A diferencia de las respuestas probabilísticas, estas respuestas no dan ninguna interpretación de la estimación, sino que explican por qué la cresta es una formulación antigua y obvia.
En regresión lineal, las ecuaciones normales danθ^=(XTX)−1XTy
Pero, la matriz veces no es invertible; Una manera de ajustar, es mediante la adición de un pequeño elemento de la diagonal: .XTX XTX+αI
Esto da la solución: ; entonces no resuelve el problema original sino el problema de la cresta.θ~=(XTX+αI)−1XTy θ~
fuente
Creo que hay una razón más intuitiva de por qué no podemos multiplicar por el término de regularización.
Llevemos nuestra función de penalización a la función de penalización regular multiplicada por un término de regularización como usted sugiere.
Aquí creamos un mínimo global de la función de penalización donde . En este caso, nuestro modelo puede producir altos errores entre la predicción y los datos, pero no importa, si los pesos de los parámetros del modelo son todos cero, nuestra función de penalización es cero .α∥θ∥22=0 J(θ=0)=0
Dado que, a menos que nuestro modelo sea completamente perfecto, el término nunca puede ser cero (la probabilidad de que exista un conjunto θ hacer que nuestro modelo sea 'perfecto' es insignificante para datos reales), entonces nuestro modelo siempre debe tender a entrenar hacia la solución θ = 0.(12(y−θXT)(y−θXT)T)
Esto es lo que devolverá a menos que se quede atascado en un mínimo local en alguna parte.
fuente