¿Cuáles son algunos de los "primeros documentos" más importantes sobre los métodos de regularización?

10

En varias respuestas, he visto que los usuarios de CrossValidated sugieren que OP encuentre documentos iniciales sobre Lasso, Ridge y Elastic Net.

Para la posteridad, ¿cuáles son los trabajos fundamentales en Lasso, Ridge y Elastic Net?

Scott Skiles
fuente

Respuestas:

11

Como simplemente está buscando referencias, aquí está la lista:

  1. Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [Sobre la estabilidad de los problemas inversos]. Doklady Akademii Nauk SSSR. 39 (5): 195-198.
  2. Tikhonov, AN (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR. 151: 501–504 .. Traducido en "Solución de problemas formulados incorrectamente y el método de regularización". Matemáticas soviéticas. 4: 1035-1038.
  3. Hoerl AE, 1962, Aplicación del análisis de crestas a problemas de regresión, Chemical Engineering Progress, 1958, 54–59.
  4. Arthur E. Hoerl; Robert W. Kennard (1970). "Regresión de cresta: estimación sesgada para problemas no ortogonales". Technometrics. 12 (1): 55–67. doi: 10.2307 / 1267351. https://pdfs.semanticscholar.org/910e/d31ef5532dcbcf0bd01a980b1f79b9086fca.pdf
  5. Tibshirani, Robert (1996). "Reducción y selección de la regresión a través del lazo" (PostScript). Revista de la Real Sociedad Estadística, Serie B. 58 (1): 267–288. MR 1379242 https://statweb.stanford.edu/~tibs/lasso/lasso.pdf
  6. Zou, H. y Hastie, T. (2005). Regularización y selección de variables a través de la red elástica. Revista de la Royal Statistical Society, Serie B. 67: págs. 301–320. https://web.stanford.edu/~hastie/Papers/B67.2%20%282005%29%20301-320%20Zou%20&%20Hastie.pdf
Sandeep S. Sandhu
fuente
1

Un artículo históricamente importante que creo que demostró primero que los estimadores de sesgo pueden dar como resultado estimaciones mejoradas para modelos lineales ordinarios:

  • Stein, C., 1956, enero. Inadmisibilidad del estimador habitual para la media de una distribución normal multivariante. En Actas del tercer simposio de Berkeley sobre estadística matemática y probabilidad (Vol. 1, No. 399, pp. 197-206).

Algunas sanciones más modernas e importantes incluyen SCAD y MCP:

  • Fan, J. y Li, R., 2001. Selección variable a través de probabilidad penalizada no cóncava y sus propiedades oráculo. Revista de la Asociación Americana de Estadística, 96 (456), pp.1348-1360.
  • Zhang, CH, 2010. Selección de variables casi imparcial bajo pena cóncava minimax. Los Anales de estadísticas, 38 (2), pp.894-942.

Y algo más sobre algoritmos muy buenos para obtener estimaciones utilizando estos métodos:

  • Breheny, P. y Huang, J., 2011. Coordinar algoritmos de descenso para la regresión penalizada no convexa, con aplicaciones para la selección de características biológicas. Los anales de las estadísticas aplicadas, 5 (1), p.232.
  • Mazumder, R., Friedman, JH y Hastie, T., 2011. Sparsenet: Coordinar el descenso con sanciones no convexas. Revista de la Asociación Americana de Estadística, 106 (495), pp.1125-1138.

También vale la pena ver este documento sobre el selector de Dantzig que está muy relacionado con el LASSO, pero (creo) presenta la idea de las desigualdades de los oráculos para los estimadores estadísticos, que son una idea bastante poderosa

  • Candes, E. y Tao, T., 2007. El selector de Dantzig: Estimación estadística cuando p es mucho mayor que n. Los Anales de Estadísticas, pp.2313-2351.
dcl
fuente