¿Qué es la regularización neta elástica y cómo resuelve los inconvenientes de Ridge (

Respuestas:

42

1. ¿Qué método es el preferido?

Sí, la red elástica siempre es preferible a la regresión de lazo y cresta porque resuelve las limitaciones de ambos métodos, al tiempo que incluye cada uno como casos especiales. Entonces, si la solución de cresta o lazo es, de hecho, la mejor, entonces cualquier buena rutina de selección de modelo lo identificará como parte del proceso de modelado.

Los comentarios a mi publicación han señalado que las ventajas de la red elástica no están sin reservas. Persisto en mi creencia de que la generalidad de la regresión red elástica sigue siendo preferible a cualquiera de L1 o L2 regularización por sí sola. Específicamente, creo que los puntos de disputa entre mí y los demás están directamente vinculados a los supuestos que estamos dispuestos a hacer sobre el proceso de modelado. En presencia de un sólido conocimiento sobre los datos subyacentes, se preferirán algunos métodos a otros. Sin embargo, mi preferencia por la red elástica se basa en mi escepticismo de que uno sabrá con confianza que L1 o L2 es el modelo verdadero.

  1. Afirmación: El conocimiento previo puede obviar una de las necesidades de usar regresión neta elástica.

Esto es algo circular. Perdóneme si esto es algo simplista, pero si sabe que LASSO (cresta) es la mejor solución, entonces no se preguntará cómo modelarlo adecuadamente; solo se ajustará a un modelo LASSO (cresta). Si está absolutamente seguro de que la respuesta correcta es la regresión LASSO (cresta), entonces está claramente convencido de que no habría razón para perder el tiempo ajustando una red elástica. Pero si está un poco menos seguro de si LASSO (cresta) es la forma correcta de proceder, creo que tiene sentido estimar un modelo más flexible y evaluar cuán fuertemente los datos respaldan la creencia anterior.

  1. Afirmación: los datos moderadamente grandes no permitirán descubrir soluciones L1 o L2 como se prefiera, incluso en los casos en que la solución L1 o L2 sea ​​el verdadero modelo.

Esto también es cierto, pero creo que es circular por una razón similar: si ha estimado una solución óptima y encuentra que α{0,1}, entonces ese es el modelo que admiten los datos. Por un lado, sí, su modelo estimado no es el modelo verdadero, pero debo preguntarme cómo se podría saber que el modelo verdadero es α=1 (o α=0 ) antes de cualquier estimación del modelo. Puede haber dominios en los que tenga este tipo de conocimiento previo, pero mi trabajo profesional no es uno de ellos.

  1. Reclamación: la introducción de hiperparámetros adicionales aumenta el costo computacional de estimar el modelo.

Esto solo es relevante si tiene limitaciones de tiempo / computadora; de lo contrario es solo una molestia. GLMNET es el algoritmo estándar de oro para estimar soluciones netas elásticas. El usuario proporciona algún valor de alfa, y utiliza las propiedades de ruta de la solución de regularización para estimar rápidamente una familia de modelos para una variedad de valores de la magnitud de penalización λ , y a menudo puede estimar esta familia de soluciones más rápidamente que estimar solo Una solución para un valor específico λ . Entonces, sí, usar GLMNET lo consigna al dominio del uso de métodos de estilo de cuadrícula (iterar sobre algunos valores de α y dejar que GLMNET pruebe una variedad de λ s), pero es bastante rápido.

  1. Afirmación: no se garantiza un rendimiento mejorado de la red elástica sobre LASSO o la regresión de cresta.

Esto es cierto, pero en el paso en el que uno está contemplando qué método usar, uno no sabrá cuál de las redes elásticas, crestas o LASSO es la mejor. Si uno razona que la mejor solución debe ser LASSO o la regresión de cresta, entonces estamos en el dominio del reclamo (1). Si todavía no estamos seguros de cuál es el mejor, entonces podemos probar las soluciones LASSO, crestas y redes elásticas, y elegir un modelo final en ese momento (o, si es un académico, simplemente escriba su artículo sobre los tres ) Esta situación de incertidumbre previa nos colocará en el dominio de la reivindicación (2), donde el modelo verdadero es LASSO / ridge pero no lo sabíamos con anticipación, y seleccionamos accidentalmente el modelo incorrecto debido a hiperparámetros mal identificados, o la red elástica es en realidad la mejor solución.

  1. Reclamación: la selección de hiperparámetros sin validación cruzada es muy sesgada y propensa a errores .

La validación adecuada del modelo es una parte integral de cualquier empresa de aprendizaje automático. La validación del modelo generalmente también es un paso costoso, por lo que uno buscaría minimizar las ineficiencias aquí: si una de esas ineficiencias está probando innecesariamente los valores α que se sabe que son inútiles, entonces una sugerencia podría ser hacerlo. Sí, por supuesto, haga eso, si se siente cómodo con la fuerte declaración que está haciendo sobre cómo se organizan sus datos, pero volvemos al territorio de la reclamación (1) y la reclamación (2).

2. ¿Cuál es la intuición y las matemáticas detrás de la red elástica?

Sugiero leer la literatura sobre estos métodos, comenzando con el artículo original sobre la red elástica. El artículo desarrolla la intuición y las matemáticas, y es altamente legible. Reproducirlo aquí solo iría en detrimento de la explicación de los autores. Pero el resumen de alto nivel es que la red elástica es una suma convexa de penalizaciones de cresta y lazo, por lo que la función objetivo para un modelo de error gaussiano se parece a un error cuadrático

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

para α[0,1].

Hui Zou y Trevor Hastie. " Selección de Regularización y variables a través de la red elástica ." JR Estadística. Soc., Vol 67 (2005), Parte 2., pp. 301-320.

Richard Hardy señala que esta se desarrolla con más detalle en Hastie et al. "Los elementos del aprendizaje estadístico" capítulos 3 y 18.

3. ¿Qué sucede si agrega L q adicional?Lq normas ?

Esta es una pregunta que me plantearon en los comentarios:

Permítanme sugerir un argumento más en contra de su punto de vista de que la red elástica es uniformemente mejor que el lazo o la cresta solos. Imagine que agregamos otra penalización a la función de costo neto elástico, por ejemplo, un costo L3 , con un hiperparámetro γ . No creo que haya mucha investigación al respecto, pero apuesto a que si realiza una búsqueda de validación cruzada en una cuadrícula de parámetros 3D, obtendrá γ0 como valor óptimo. Si es así, ¿podría argumentar que siempre es una buena idea incluir el costo L3 también?

Aprecio que el espíritu de la pregunta es "Si es como usted dice y dos penalizaciones son buenas, ¿por qué no agregar otra?" Pero creo que la respuesta radica en por qué nos regularizamos en primer lugar.

L1 regularización tiende a producir soluciones dispersas, sino que también tiende a seleccionar la característica más fuertemente correlacionado con el resultado y cero el resto. Además, en un conjunto de datos con n observaciones, puede seleccionar como máximo n características. L2 regularización de L 2 es adecuada para tratar problemas mal planteados como resultado de características altamente (o perfectamente) correlacionadas. En un conjunto de datos con características p , la regularización de L2 se puede utilizar para identificar de forma exclusiva un modelo en el caso p>n .

Dejando a un lado cualquiera de estos problemas, el modelo regularizado aún puede superar al modelo ML porque las propiedades de contracción de los estimadores son "pesimistas" y llevan los coeficientes hacia 0.

Pero no conozco las propiedades estadísticas para la regularización de L3 . En los problemas en los que he trabajado, generalmente enfrentamos ambos problemas: la inclusión de características pobremente correlacionadas (hipótesis que no son confirmadas por los datos) y características co-lineales.

De hecho, hay razones de peso para que las penalizaciones L1 y L2 sobre los parámetros sean las únicas que se usan típicamente.

En ¿Por qué solo vemos la regularización de y L 2 pero no otras normas? L1L2@whuber ofrece este comentario:

L2L1L1L2

LqL1L2

Sycorax dice reinstalar a Mónica
fuente
44
Diciendo que "red elástica es siempre preferible a Lasso y regresión contraída" puede ser un poco demasiado fuerte. En muestras pequeñas o medianas, la red elástica puede no seleccionar LASSO puro o solución de cresta pura, incluso si el primero o el segundo es realmente el relevante. Fuerte conocimiento previo dado podría tener sentido para elegir LASSO o cresta en lugar de malla elástica. Sin embargo, en ausencia de conocimiento previo, la red elástica debería ser la solución preferida.
Richard Hardy
44
α
77
+1 para una discusión en profundidad, pero permítanme sugerir un argumento más en contra de su punto de vista de que la red elástica es uniformemente mejor que el lazo o la cresta solo. Imagine que agregamos otra penalización a la función de costo neto elástico, por ejemplo, un costo L3, con un hiperparámetro γγ0
55
La pregunta de @ amoeba fue muy astuta, y creo que al responderla parece haber cambiado un poco sus estándares. A menos que esté absolutamente seguro de que una combinación de penalización y L 2 es mejor, ¿por qué no dejar que los datos decidan cuánto L 3L1L2L3 penalización a aplicar? Sus argumentos parecen todavía un poco demasiado fuerte y parece justificar la adición de más parámetros (hiper) en casi cualquier situación.
Scortchi - Restablecer Mónica
3
"Podemos probar las soluciones LASSO, de cresta y de red elástica, y elegir un modelo final", podemos, pero por supuesto que es un procedimiento nuevo, que optimiza un criterio sujeto a error aleatorio, que puede o no funcionar mejor que LASSo, o regresión de cresta, o red elástica sola.
Scortchi - Restablece a Monica
11

Generalmente estoy de acuerdo con la respuesta de @Sycorax, pero me gustaría agregar alguna calificación.

Decir que "la red elástica siempre es preferible a la regresión de lazo y cresta" puede ser demasiado fuerte. En muestras pequeñas o medianas, la red elástica puede no seleccionar LASSO puro o solución de cresta pura, incluso si el primero o el segundo es realmente el relevante. Dado un fuerte conocimiento previo, podría tener sentido elegir LASSO o cresta en lugar de una red elástica. Sin embargo, en ausencia de conocimiento previo, la red elástica debería ser la solución preferida.

Además, la red elástica es computacionalmente más costosa que LASSO o cresta, ya que el peso relativo de LASSO versus cresta debe seleccionarse mediante validación cruzada. Si una cuadrícula razonable de valores alfa es [0,1] con un tamaño de paso de 0.1, eso significaría que la red elástica es aproximadamente 11 veces más costosa computacionalmente que LASSO o cresta. (Dado que LASSO y la cresta no tienen la misma complejidad computacional, el resultado es una suposición aproximada).

Richard Hardy
fuente
1
O, de hecho, LASSO o la regresión de cresta pueden no proporcionar un mejor rendimiento predictivo sobre la regresión sin potencializar.
Scortchi - Restablece a Monica
44
¿Qué tipo de conocimiento previo llevaría a preferir Lasso y qué tipo de conocimiento previo llevaría a preferir la cresta?
ameba dice Reinstate Monica
44
@amoeba, si es plausible que todos los regresores sean relevantes, pero están altamente correlacionados, entonces no se necesita una selección de variables y, por lo tanto, se podría preferir la cresta. Si, por otro lado, es probable que algunos de los regresores sean completamente irrelevantes (pero simplemente no sabemos cuáles), entonces se necesita una selección de variables y podría preferirse LASSO. Este conocimiento se tomaría del dominio de la materia. Creo que puede haber algunos ejemplos en Hastie et al. "Los elementos del aprendizaje estadístico" o en la literatura relacionada, simplemente no recuerdo dónde lo leí.
Richard Hardy
1
@kjetilbhalvorsen, gracias, fue útil.
Richard Hardy
1
@amoeba, la cresta es mejor para datos correlacionados, donde L2 fomenta muchos pesos pequeños (promedio) sobre las entradas ... el ejemplo clásico es mediciones repetidas con ruido independiente (por ejemplo, procesamiento de señales o, por ejemplo, exámenes múltiples del mismo sujeto), mientras que l1 es mejor donde 1 var domina al otro, el caso clásico son los datos jerárquicos: donde los coeficientes deben estimarse en el nivel más alto en la jerarquía.
seanv507