¿Cuándo debo usar lazo vs cresta?

167

Digamos que quiero estimar una gran cantidad de parámetros, y quiero penalizar algunos de ellos porque creo que deberían tener poco efecto en comparación con los demás. ¿Cómo decido qué esquema de penalización utilizar? ¿Cuándo es más apropiada la regresión de cresta? ¿Cuándo debo usar el lazo?

Larry Wang
fuente
"Digamos que quiero estimar una gran cantidad de parámetros" esto podría hacerse más preciso: ¿Cuál es el marco? Supongo que es una regresión lineal?
robin girard
2
Se acaba de hacer una pregunta similar sobre metaoptimize (teniendo en cuenta que l1 = LASSO y l2 = cresta): metaoptimize.com/qa/questions/5205/…
Gael Varoquaux
Dices "lazo versus cresta" como si fueran las dos únicas opciones: ¿qué pasa con el doble pareto generalizado, la herradura, el bma, el puente, entre otros?
probabilidadislogic

Respuestas:

106

Tenga en cuenta que la regresión de cresta no puede poner a cero los coeficientes; por lo tanto, terminas incluyendo todos los coeficientes en el modelo, o ninguno de ellos. Por el contrario, LASSO realiza automáticamente la reducción de parámetros y la selección de variables. Si algunas de sus covariables están altamente correlacionadas, es posible que desee mirar Elastic Net [3] en lugar de LASSO.

Yo personalmente recomendaría usar la Garotte no negativa (NNG) [1] ya que es consistente en términos de estimación y selección de variables [2]. A diferencia de LASSO y la regresión de cresta, NNG requiere una estimación inicial que luego se reduce hacia el origen. En el documento original, Breiman recomienda la solución de mínimos cuadrados para la estimación inicial (sin embargo, es posible que desee comenzar la búsqueda desde una solución de regresión de crestas y usar algo como GCV para seleccionar el parámetro de penalización).

En términos de software disponible, he implementado el NNG original en MATLAB (basado en el código FORTRAN original de Breiman). Puedes descargarlo desde:

http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip

Por cierto, si prefiere una solución bayesiana, consulte [4,5].

Referencias

[1] Breiman, L. Mejor regresión del subconjunto utilizando la Technometrics Garrote no negativo, 1995, 37, 373-384

[2] Yuan, M. y Lin, Y. Sobre el estimador de garrotte no negativo Journal of the Royal Statistical Society (Serie B), 2007, 69, 143-161.

[3] Zou, H. y Hastie, T. Regularización y selección de variables a través de la red elástica Journal of the Royal Statistical Society (Serie B), 2005, 67, 301-320

[4] Park, T. y Casella, G. The Bayesian Lasso Journal de la Asociación Americana de Estadística, 2008, 103, 681-686

[5] Kyung, M .; Gill, J .; Ghosh, M. y Casella, G. Regresión penalizada, errores estándar y análisis bayesiano Lassos Bayesiano, 2010, 5, 369-412

emakalic
fuente
2
¿Podría ser más específico en cresta vs lazo? ¿La selección automática de variables es la única razón para preferir el lazo?
Chogg
42

Ridge o lazo son formas de regresiones lineales regularizadas. La regularización también puede interpretarse como anterior en un método de estimación máximo a posteriori. Bajo esta interpretación, la cresta y el lazo hacen diferentes suposiciones sobre la clase de transformación lineal que infieren para relacionar datos de entrada y salida. En la cresta, los coeficientes de la transformación lineal están distribuidos normalmente y en el lazo están distribuidos por Laplace. En el lazo, esto facilita que los coeficientes sean cero y, por lo tanto, es más fácil eliminar algunas de las variables de entrada que no contribuyen a la salida.

También hay algunas consideraciones prácticas. La cresta es un poco más fácil de implementar y más rápida de calcular, lo que puede ser importante según el tipo de datos que tenga.

Si ambos han implementado, use subconjuntos de sus datos para encontrar la cresta y el lazo y comparar qué tan bien funcionan en los datos omitidos. Los errores deberían darle una idea de cuál usar.

Hbar
fuente
8
No lo entiendo, ¿cómo podría saber si sus coeficientes son laplace o están distribuidos normalmente?
ihadanny
1
¿Por qué la regresión de Ridge es más rápida de calcular?
Archie
44
@Hbar: "La regularización también se puede interpretar como anterior en un método de estimación máxima a posteriori": ¿podría explicar esta parte con más detalle con símbolos matemáticos, o al menos dar una referencia? ¡Gracias!
Mathmath
2
@ihadanny Lo más probable es que no lo sepas, y ese es el punto. Solo puedes decidir cuál mantener a posteriori .
Firebug
30

En general, cuando tiene muchos efectos de tamaño pequeño / mediano, debe ir con cresta. Si solo tiene unas pocas variables con un efecto medio / grande, vaya con lazo. Hastie, Tibshirani, Friedman

Gary
fuente
44
Pero cuando tenga algunas variables, es posible que desee mantenerlas todas en sus modelos si tienen efectos medianos / grandes, lo que no será el caso en el lazo, ya que podría eliminar una de ellas. ¿Puedes explicar esto en detalle? Siento que cuando tienes muchas variables usamos Lasso para eliminar variables innecesarias y no crestas.
aditya bhandari