Digamos que quiero estimar una gran cantidad de parámetros, y quiero penalizar algunos de ellos porque creo que deberían tener poco efecto en comparación con los demás. ¿Cómo decido qué esquema de penalización utilizar? ¿Cuándo es más apropiada la regresión de cresta? ¿Cuándo debo usar el lazo?
regression
lasso
ridge-regression
Larry Wang
fuente
fuente
Respuestas:
Tenga en cuenta que la regresión de cresta no puede poner a cero los coeficientes; por lo tanto, terminas incluyendo todos los coeficientes en el modelo, o ninguno de ellos. Por el contrario, LASSO realiza automáticamente la reducción de parámetros y la selección de variables. Si algunas de sus covariables están altamente correlacionadas, es posible que desee mirar Elastic Net [3] en lugar de LASSO.
Yo personalmente recomendaría usar la Garotte no negativa (NNG) [1] ya que es consistente en términos de estimación y selección de variables [2]. A diferencia de LASSO y la regresión de cresta, NNG requiere una estimación inicial que luego se reduce hacia el origen. En el documento original, Breiman recomienda la solución de mínimos cuadrados para la estimación inicial (sin embargo, es posible que desee comenzar la búsqueda desde una solución de regresión de crestas y usar algo como GCV para seleccionar el parámetro de penalización).
En términos de software disponible, he implementado el NNG original en MATLAB (basado en el código FORTRAN original de Breiman). Puedes descargarlo desde:
http://www.emakalic.org/blog/wp-content/uploads/2010/04/nngarotte.zip
Por cierto, si prefiere una solución bayesiana, consulte [4,5].
Referencias
[1] Breiman, L. Mejor regresión del subconjunto utilizando la Technometrics Garrote no negativo, 1995, 37, 373-384
[2] Yuan, M. y Lin, Y. Sobre el estimador de garrotte no negativo Journal of the Royal Statistical Society (Serie B), 2007, 69, 143-161.
[3] Zou, H. y Hastie, T. Regularización y selección de variables a través de la red elástica Journal of the Royal Statistical Society (Serie B), 2005, 67, 301-320
[4] Park, T. y Casella, G. The Bayesian Lasso Journal de la Asociación Americana de Estadística, 2008, 103, 681-686
[5] Kyung, M .; Gill, J .; Ghosh, M. y Casella, G. Regresión penalizada, errores estándar y análisis bayesiano Lassos Bayesiano, 2010, 5, 369-412
fuente
Ridge o lazo son formas de regresiones lineales regularizadas. La regularización también puede interpretarse como anterior en un método de estimación máximo a posteriori. Bajo esta interpretación, la cresta y el lazo hacen diferentes suposiciones sobre la clase de transformación lineal que infieren para relacionar datos de entrada y salida. En la cresta, los coeficientes de la transformación lineal están distribuidos normalmente y en el lazo están distribuidos por Laplace. En el lazo, esto facilita que los coeficientes sean cero y, por lo tanto, es más fácil eliminar algunas de las variables de entrada que no contribuyen a la salida.
También hay algunas consideraciones prácticas. La cresta es un poco más fácil de implementar y más rápida de calcular, lo que puede ser importante según el tipo de datos que tenga.
Si ambos han implementado, use subconjuntos de sus datos para encontrar la cresta y el lazo y comparar qué tan bien funcionan en los datos omitidos. Los errores deberían darle una idea de cuál usar.
fuente
En general, cuando tiene muchos efectos de tamaño pequeño / mediano, debe ir con cresta. Si solo tiene unas pocas variables con un efecto medio / grande, vaya con lazo. Hastie, Tibshirani, Friedman
fuente