Algunas funciones de penalización y aproximaciones están bien estudiadas, como LASSO ( ) y Ridge ( ) y cómo se comparan en regresión.L 2
He estado leyendo sobre la penalización de Bridge, que es la penalización generalizada . Compare eso con el LASSO, que tiene \ gamma = 1 , y el Ridge, con \ gamma = 2 , haciéndolos casos especiales.
Wenjiang [ 1 ] comparó la penalización de Bridge cuando con LASSO, pero no pude encontrar una comparación con la regularización de Elastic Net, una combinación de las penalizaciones de LASSO y Ridge, dada como .
Esta es una pregunta interesante porque Elastic Net y este puente específico tienen formas de restricción similares. Compare estos círculos unitarios utilizando las diferentes métricas ( es el poder de la distancia de Minkowski ):
corresponde al LASSO, a la cresta, y a un posible puente. El elástico neto se ha generado con la misma ponderación en y sanciones. Estas cifras son útiles para identificar la escasez, por ejemplo (que Bridge carece claramente mientras Elastic Net lo conserva de LASSO).
Entonces, ¿cómo se compara el Puente con con Elastic Net con respecto a la regularización (aparte de la escasez)? Tengo especial interés en el aprendizaje supervisado, por lo que tal vez sea pertinente una discusión sobre la selección / ponderación de características. La argumentación geométrica también es bienvenida.
Quizás, más importante, ¿la Elastic Net es siempre más deseable en este caso?
EDITAR: Hay esta pregunta ¿Cómo decidir qué medida de penalización usar? cualquier directriz general o regla general del libro de texto que mencione superficialmente LASSO, Ridge, Bridge y Elastic Net, pero no hay intentos de compararlos.
Respuestas:
La diferencia entre la regresión del puente y la red elástica es una pregunta fascinante, dadas sus penalizaciones de aspecto similar. Aquí hay un posible enfoque. Supongamos que resolvemos el problema de regresión del puente. Entonces podemos preguntarnos cómo diferiría la solución neta elástica. Observar los gradientes de las dos funciones de pérdida puede decirnos algo sobre esto.
Regresión del puente
Digamos que es una matriz que contiene valores de la variable independiente ( puntos x dimensiones), es un vector que contiene valores de la variable dependiente, y es el vector de peso.n d y wX n d y w
La función de pérdida penaliza la norma de los pesos, con magnitud :λ bℓq λb
El gradiente de la función de pérdida es:
i v c i sgn ( w ) w qv∘c denota el poder de Hadamard (es decir, en cuanto al elemento), que proporciona un vector cuyo elemento es . es la función de signo (aplicada a cada elemento de ). El gradiente puede estar indefinido en cero para algunos valores de .i vdoyo sgn ( w ) w q
Red elástica
La función de pérdida es:
Esto penaliza la norma de los pesos con magnitud y la norma con magnitud . El papel de red elástica llama a minimizar esta función de pérdida la 'red elástica ingenua' porque reduce doblemente los pesos. Describen un procedimiento mejorado en el que los pesos se vuelven a escalar para compensar la doble contracción, pero solo voy a analizar la versión ingenua. Esa es una advertencia a tener en cuenta.λ 1 ℓ 2 λ 2ℓ1 λ1 ℓ2 λ2
El gradiente de la función de pérdida es:
El gradiente no está definido en cero cuando porque el valor absoluto en la penalización no es diferenciable allí.ℓ 1λ1> 0 ℓ1
Enfoque
Digamos que seleccionamos pesos que resuelven el problema de regresión del puente. Esto significa que el gradiente de regresión del puente es cero en este punto:w∗
Por lo tanto:
Podemos sustituir esto en el gradiente neto elástico, para obtener una expresión para el gradiente neto elástico en . Afortunadamente, ya no depende directamente de los datos:w∗
Al observar el gradiente de la red elástica en nos dice: Dado que la regresión del puente ha convergido a los pesos , ¿cómo querría la red elástica cambiar estos pesos?w ∗w∗ w∗
Nos da la dirección local y la magnitud del cambio deseado, porque el gradiente apunta en la dirección del ascenso más pronunciado y la función de pérdida disminuirá a medida que nos movemos en la dirección opuesta al gradiente. El gradiente podría no apuntar directamente hacia la solución de red elástica. Pero, debido a que la función de pérdida neta elástica es convexa, la dirección / magnitud local proporciona cierta información sobre cómo la solución neta elástica diferirá de la solución de regresión del puente.
Caso 1: comprobación de cordura
( ). La regresión de puente en este caso es equivalente a mínimos cuadrados ordinarios (MCO), porque la magnitud de la penalización es cero. La red elástica es una regresión de cresta equivalente, porque solo se penaliza la norma . Los siguientes gráficos muestran diferentes soluciones de regresión de puentes y cómo se comporta el gradiente neto elástico para cada uno.ℓ 2λsi= 0 , λ1= 0 , λ2= 1 ℓ2
Gráfico de la izquierda: gradiente neto elástico versus peso de regresión del puente a lo largo de cada dimensión
El eje x representa un componente de un conjunto de pesos seleccionado por regresión de puente. El eje y representa el componente correspondiente del gradiente neto elástico, evaluado en . Tenga en cuenta que los pesos son multidimensionales, pero solo estamos viendo los pesos / gradiente a lo largo de una sola dimensión.w ∗w∗ w∗
Gráfico correcto: cambios netos elásticos en los pesos de regresión del puente (2d)
Cada punto representa un conjunto de 2d pesos seleccionados por regresión de puente. Para cada elección de , se traza un vector apuntando en la dirección opuesta al gradiente neto elástico, con una magnitud proporcional a la del gradiente. Es decir, los vectores trazados muestran cómo la red elástica quiere cambiar la solución de regresión del puente.w ∗w∗ w∗
Estas gráficas muestran que, en comparación con la regresión de puente (OLS en este caso), la red elástica (regresión de cresta en este caso) quiere reducir los pesos hacia cero. La cantidad deseada de contracción aumenta con la magnitud de los pesos. Si los pesos son cero, las soluciones son las mismas. La interpretación es que queremos movernos en la dirección opuesta al gradiente para reducir la función de pérdida. Por ejemplo, digamos que la regresión del puente convergió a un valor positivo para uno de los pesos. El gradiente de red elástica es positivo en este punto, por lo que la red elástica quiere disminuir este peso. Si se usa el descenso de gradiente, tomaríamos pasos de tamaño proporcional al gradiente (por supuesto, técnicamente no podemos usar el descenso de gradiente para resolver la red elástica debido a la no diferenciabilidad en cero,
Caso 2: puente a juego y red elástica
( ). Elegí los parámetros de penalización del puente para que coincida con el ejemplo de la pregunta. Elegí los parámetros de red elástica para dar la mejor penalización de red elástica correspondiente. Aquí, la mejor combinación significa, dada una distribución particular de pesos, encontramos los parámetros de penalización neta elástica que minimizan la diferencia al cuadrado esperada entre el puente y las penalizaciones netas elásticas:q= 1.4 , λsi= 1 , λ1= 0.629 , λ2= 0.355
Aquí, consideré los pesos con todas las entradas extraídas de la distribución uniforme en (es decir, dentro de un hipercubo centrado en el origen). Los parámetros de red elástica de mejor coincidencia fueron similares para 2 a 1000 dimensiones. Aunque no parecen ser sensibles a la dimensionalidad, los parámetros que mejor coinciden dependen de la escala de la distribución.[ - 2 , 2 ]
Superficie de penalización
Aquí hay una gráfica de contorno de la penalización total impuesta por la regresión del puente ( ) y la red elástica de mejor coincidencia ( ) en función de los pesos (para el caso 2d ):λ 1 = 0.629 , λ 2 = 0.355q= 1.4 , λsi= 100 λ1= 0.629 , λ2= 0.355
Comportamiento gradiente
Podemos ver lo siguiente:
Los resultados son cualitativamente similares si cambiamos el valor de y / o y encontramos el mejor . Los puntos donde coinciden las soluciones de puente y red elástica cambian ligeramente, pero el comportamiento de los gradientes es similar.λ b λ 1 , λ 2q λsi λ1, λ2
Caso 3: Puente no coincidente y red elástica
λ 1 , λ 2 ℓ 1 ℓ 2( q= 1.8 , λsi= 1 , λ1= 0.765 , λ2= 0.225 ) . En este régimen, la regresión de puente se comporta de manera similar a la regresión de cresta. Encontré la mejor , pero luego las cambié para que la red elástica se comporte más como lazo ( penalización mayor que penalización).λ1, λ2 ℓ1 ℓ2
En relación con la regresión del puente, la red elástica quiere reducir los pesos pequeños hacia cero y aumentar los pesos más grandes. Hay un solo conjunto de pesos en cada cuadrante donde la regresión del puente y las soluciones de red elástica coinciden, pero la red elástica quiere alejarse de este punto si los pesos difieren incluso ligeramente.
ℓ 1 q > 1 λ 1 , λ 2 ℓ 2 ℓ 1( q= 1.2 , λsi= 1 , λ1= 173 , λ2= 0,816 ) . En este régimen, la penalización del puente es más similar a una penalización (aunque la regresión del puente puede no producir soluciones dispersas con , como se menciona en el documento de red elástica). Encontré la mejor , pero luego las cambié para que la red elástica se comporte más como una regresión de cresta ( penalización mayor que penalización).ℓ1 q> 1 λ1, λ2 ℓ2 ℓ1
En relación con la regresión del puente, la red elástica quiere crecer pesos pequeños y reducir pesos más grandes. Hay un punto en cada cuadrante donde la regresión del puente y las soluciones de red elástica coinciden, y la red elástica quiere moverse hacia estos pesos desde los puntos vecinos.
fuente