Selección de penalización óptima para lazo

15

¿Hay resultados analíticos o documentos experimentales con respecto a la elección óptima del coeficiente del término de penalización 1 ? Por óptimo , me refiero a un parámetro que maximiza la probabilidad de seleccionar el mejor modelo, o que minimiza la pérdida esperada. Pregunto porque a menudo no es práctico elegir el parámetro mediante validación cruzada o bootstrap, ya sea por un gran número de instancias del problema o por el tamaño del problema en cuestión. El único resultado positivo que conozco es Candes and Plan, selección de modelo casi ideal por 1 minimización .

alegre
fuente
2
¿Conoce los documentos que establecen resultados de consistencia para el lazo? Knight y Fu (2000), Yu y Zhao (2006), y varios documentos de Meinshausen.
cardenal
Sí, pero mi pregunta no es sobre la consistencia asintótica, que es el tema de los documentos que mencionó.
Gappy
1
Esos documentos son (principalmente) sobre la consistencia de la selección del modelo , lo que diría que está muy relacionado con la pregunta que hizo. :)
cardenal

Respuestas:

2

Teorema de verificación 5.1 de este Bickel et al. . Una elección estadísticamente óptimo en términos del error es λ = A σ ruido yy^(λ)22 (con alta probabilidad), para una constanteA>2λ=Aσnoiselogpn .UN>22

dohmatob
fuente
Esto no parece ajustarse a la factura, ya que requiere saber . De hecho, es exactamente este problema el que motiva el lazo de raíz cuadrada ( arxiv.org/pdf/1009.5689.pdf )σnorteoyosmi
user795305
5

Supongo que está más interesado en la regresión, como en el artículo citado, y no en otras aplicaciones de la penitencia (lazo gráfico, por ejemplo).1

Entonces creo que se pueden encontrar algunas respuestas en el documento Sobre los "grados de libertad" del lazo de Zou et al. Brevemente, proporciona una fórmula analítica para los grados efectivos de libertad , que para la pérdida de error al cuadrado le permite reemplazar CV por una estadística analítica de tipo , por ejemplo.Cpag

Otro lugar para buscar es en el selector de Dantzig: Estimación estadística cuando p es mucho mayor que n y los documentos de discusión en el mismo número de Annals of Statistics. Tengo entendido que resuelven un problema estrechamente relacionado con la regresión de lazo pero con una elección fija de coeficiente de penalización. Pero también eche un vistazo a los documentos de discusión.

Si no está interesado en la predicción, sino en la selección del modelo, no conozco resultados similares. Los modelos óptimos de predicción a menudo resultan en demasiadas variables seleccionadas en los modelos de regresión. En el artículo Selección de estabilidad, Meinshausen y Bühlmann presentan una técnica de submuestreo más útil para la selección del modelo, pero puede ser demasiado exigente computacionalmente para sus necesidades.

NRH
fuente
(+1) Vale la pena leer atentamente estos tres documentos para aquellos interesados ​​en este tema. El papel de selección de Dantzig tiene muy buenas matemáticas; Sin embargo, no he visto que tenga mucha tracción en las aplicaciones, ni espero que lo haga. Creo que, entre otras cosas, las rutas de regularización muy ruidosas ponen nerviosas a las personas y, por lo tanto, sin ningún beneficio obvio sobre el lazo, hacen que sea difícil de vender.
Cardenal
Hum, tenga en cuenta que aunque el número de coeficientes distintos de cero para un valor dado del parámetro de regularización es una estimación imparcial para los DoF en ese valor, esta estimación es de muy alta varianza.
dohmatob
1

Desde que se hizo esta pregunta, se han hecho progresos interesantes. Por ejemplo, considere este documento

Chichignoud, M., Lederer, J. y Wainwright, M. (2016). Un esquema práctico y un algoritmo rápido para sintonizar el lazo con garantías de optimización. Journal of Machine Learning Research, 17, 1–17.

Proponen un método para seleccionar el parámetro de ajuste LASSO con garantías de muestras finitas demostrables para la selección del modelo. Como dicen en el documento, "Para los esquemas de calibración estándar, entre ellos la validación cruzada, no hay garantías comparables disponibles en la literatura. De hecho, no conocemos ninguna garantía de muestras finitas para los esquemas de calibración estándar".

usuario795305
fuente
0

Esto no responde a su pregunta, pero: en una configuración de datos grandes, puede estar bien sintonizar el regularizador usando una sola división de tren / prueba, en lugar de hacerlo aproximadamente 10 veces en validación cruzada (o más para bootstrap). El tamaño y la representatividad de la muestra elegida para el conjunto de desarrollo determina la precisión de la estimación del regularizador óptimo.

En mi experiencia, la pérdida prolongada es relativamente plana en un rango considerable de regularizadores. Estoy seguro de que este hecho puede no ser válido para otros problemas.

Brendan OConnor
fuente