La regularización se emplea en casi todos los algoritmos de aprendizaje automático en los que estamos tratando de aprender de muestras finitas de datos de entrenamiento.
Intentaré responder indirectamente a sus preguntas específicas explicando la génesis del concepto de regularización. La teoría completa es mucho más detallada y esta explicación no debe interpretarse como completa, sino que tiene la intención de señalarle en la dirección correcta para una mayor exploración. Dado que su objetivo principal es obtener una comprensión intuitiva de la regularización, he resumido y simplificado en gran medida la siguiente explicación del Capítulo 7 de "Redes neuronales y máquinas de aprendizaje", tercera edición de Simon Haykin (y omití varios detalles al hacerlo).
Volvamos al problema del aprendizaje supervisado con las variables independientes y la variable dependiente al tratar de encontrar una función que pueda "asignar" la entrada X a una salida Y.y i fXyoyyoF
Para llevar esto más lejos, comprendamos la terminología de Hadamard de un problema "bien planteado": un problema está bien planteado si cumple las tres condiciones siguientes:
- Para cada entrada , y la salida existe.y iXyoyyo
- Para un par de entradas y , si y solo si .x 2 f ( x 1 ) = f ( x 2 ) x 1 = x 2X1X2F( x1) = f( x2)X1= x2
- El mapeo es continuo (criterios de estabilidad)F
Para el aprendizaje supervisado, estas condiciones pueden violarse ya que:
- Es posible que no exista una salida distinta para una entrada dada.
- Es posible que no haya suficiente información en las muestras de entrenamiento para construir un mapeo único de entrada-salida (ya que ejecutar el algoritmo de aprendizaje en diferentes muestras de entrenamiento da como resultado diferentes funciones de mapeo).
- El ruido en los datos agrega incertidumbre al proceso de reconstrucción que puede afectar su estabilidad.
Para resolver tales problemas "mal planteados", Tikhonov propuso un método de regularización para estabilizar la solución al incluir una función no negativa que incorpora información previa sobre la solución.
La forma más común de información previa implica el supuesto de que la función de mapeo de entrada-salida es fluida, es decir, entradas similares producen salidas similares.
La teoría de regularización de Tikhnov agrega el término de regularización a la función de costo (se debe minimizar la función de pérdida) que incluye el parámetro de regularización y la forma asumida del mapeo . El valor de se elige entre 0 y . Un valor de 0 implica que la solución se determina completamente a partir de las muestras de entrenamiento; mientras que un valor de implica que los ejemplos de entrenamiento no son confiables.f λ ∞ ∞λFλ∞∞
Por lo tanto, el parámetro de regularización se selecciona y optimiza para lograr el equilibrio deseado entre el sesgo del modelo y la varianza del modelo al incorporar la cantidad correcta de información previa.λ
Algunos ejemplos de tales funciones de costo regularizadas son:
Regresión lineal:
J(θ)=1m∑mi=1[hθ(xi)−yi]2+λ2m∑nj=1θ2j
Regresión logística:
J(θ)=1m∑mi=1[−yilog(hθ(xi))−(1−yi)log(1−hθ(xi))]+λ2m∑nj=1θ2j
Donde, son los coeficientes que hemos identificado para , y es la estimación de .θxhθ(x)y
El segundo término de suma en cada ejemplo es el término de regularización. Dado que este término siempre es un valor no negativo, impide que el optimizador alcance los mínimos globales para la función de costo. La forma del término que se muestra aquí es una regularización . Hay muchas variaciones en la forma de la función de regularización, las formas comúnmente utilizadas son: lazo, red elástica y regresión de cresta. Estos tienen sus propias ventajas y desventajas que ayudan a decidir cuál es su mejor aplicabilidad.L2
El efecto neto de aplicar la regularización es reducir la complejidad del modelo, lo que reduce el ajuste excesivo. Otros enfoques para la regularización (no enumerados en los ejemplos anteriores) incluyen modificaciones a modelos estructurales tales como árboles de regresión / clasificación, árboles impulsados, etc., al eliminar nodos para hacer árboles más simples. Más recientemente, esto se ha aplicado en el llamado "aprendizaje profundo" al abandonar las conexiones entre las neuronas en una red neuronal.
Una respuesta específica a la P3 es que algunos métodos de ensamblaje como Random Forest (o esquemas de votación similares) logran la regularización debido a su método inherente, es decir, votar y elegir la respuesta de una colección de Árboles no regularizados. Aunque los árboles individuales tienen un sobreajuste, el proceso de "promediar" su resultado impide que el conjunto se sobreajuste al conjunto de entrenamiento.
EDITAR:
El concepto de regularidad pertenece a la teoría de conjuntos axiomáticos, puede consultar este artículo para obtener sugerencias: en.wikipedia.org/wiki/Axiom_of_regularity y explorar este tema más a fondo si le interesan los detalles.
En la regularización para redes neuronales: al ajustar los pesos mientras se ejecuta el algoritmo de retropropagación, el término de regularización se agrega a la función de costo de la misma manera que los ejemplos de regresión lineal y logística. Por lo tanto, la adición del término de regularización impide que la propagación inversa llegue a los mínimos mundiales.
El artículo que describe la normalización por lotes para redes neuronales es: Normalización por lotes: acelerar el entrenamiento de redes profundas al reducir el cambio de covariable interno, Ioffe, Szegedy, 2015. Se sabe que la retropropagación para entrenar una red neuronal funciona mejor cuando las variables de entrada están normalizadas. En este artículo, los autores han aplicado la normalización a cada mini lote utilizado en el Descenso de gradiente estocástico para evitar el problema de "gradientes que desaparecen" al entrenar muchas capas de una red neuronal. El algoritmo descrito en su documento trata la media y la varianza calculada en cada lote para cada capa de activaciones como otro conjunto de parámetros optimizados en SGD de mini lote (además de los pesos NN). Las activaciones se normalizan utilizando todo el conjunto de entrenamiento. Puede consultar su documento para obtener todos los detalles de este algoritmo. Al usar este método, pudieron evitar el uso de abandonos para la regularización y, por lo tanto, afirman que este es otro tipo de regularización.
Pregunta 1
No conozco ninguna definición canónica, y sus preguntas sugieren que este término se usa con diferentes significados. Comencemos con ejemplos simples (que responderán a la pregunta 2).
Pregunta 2
La regresión de cresta puede ser un buen punto de partida. Es un método de regularización que evita el problema planteado por una matriz singular .
Sin embargo, el "parámetro de regularización" definido en los métodos de aumento de gradiente (por ejemplo) está aquí para garantizar una baja complejidad para el modelo.
Pregunta 3
La normalización como regularización tiene otro significado (y esta terminología es bastante engañosa). Convierte un problema complejo "desde el punto de vista de descenso de gradiente" en algo más simple. Aunque no es necesario calibrar una red neuronal, realmente ayuda durante la calibración. (Sin embargo, tenga en cuenta que si pudiéramos encontrar los extremos globales de las funciones arbitrarias, no sería necesaria la normalización)
Pregunta 4
La regularización (como una forma de reducir la complejidad de un modelo) se utiliza para reducir el sobreajuste. Cuanto menos complejo es un modelo, es menos probable que se sobreajuste.
Aparte
S. Watanabe hace un uso riguroso de esta terminología en su investigación.
fuente