¿Hay resultados analíticos o documentos experimentales con respecto a la elección óptima del coeficiente del término de penalización ? Por óptimo , me refiero a un parámetro que maximiza la probabilidad de seleccionar el mejor modelo, o que minimiza la pérdida esperada. Pregunto porque a menudo no es práctico elegir el parámetro mediante validación cruzada o bootstrap, ya sea por un gran número de instancias del problema o por el tamaño del problema en cuestión. El único resultado positivo que conozco es Candes and Plan, selección de modelo casi ideal por minimización .
model-selection
lasso
shrinkage
alegre
fuente
fuente
Respuestas:
Teorema de verificación 5.1 de este Bickel et al. . Una elección estadísticamente óptimo en términos del error es λ = A σ ruido √∥y−y^(λ)∥22 (con alta probabilidad), para una constanteA>2√λ=Aσnoiselogpn−−−−−√ .A > 2 2-√
fuente
Supongo que está más interesado en la regresión, como en el artículo citado, y no en otras aplicaciones de la penitencia (lazo gráfico, por ejemplo).ℓ1
Entonces creo que se pueden encontrar algunas respuestas en el documento Sobre los "grados de libertad" del lazo de Zou et al. Brevemente, proporciona una fórmula analítica para los grados efectivos de libertad , que para la pérdida de error al cuadrado le permite reemplazar CV por una estadística analítica de tipo , por ejemplo.Cpag
Otro lugar para buscar es en el selector de Dantzig: Estimación estadística cuando p es mucho mayor que n y los documentos de discusión en el mismo número de Annals of Statistics. Tengo entendido que resuelven un problema estrechamente relacionado con la regresión de lazo pero con una elección fija de coeficiente de penalización. Pero también eche un vistazo a los documentos de discusión.
Si no está interesado en la predicción, sino en la selección del modelo, no conozco resultados similares. Los modelos óptimos de predicción a menudo resultan en demasiadas variables seleccionadas en los modelos de regresión. En el artículo Selección de estabilidad, Meinshausen y Bühlmann presentan una técnica de submuestreo más útil para la selección del modelo, pero puede ser demasiado exigente computacionalmente para sus necesidades.
fuente
Desde que se hizo esta pregunta, se han hecho progresos interesantes. Por ejemplo, considere este documento
Proponen un método para seleccionar el parámetro de ajuste LASSO con garantías de muestras finitas demostrables para la selección del modelo. Como dicen en el documento, "Para los esquemas de calibración estándar, entre ellos la validación cruzada, no hay garantías comparables disponibles en la literatura. De hecho, no conocemos ninguna garantía de muestras finitas para los esquemas de calibración estándar".
fuente
Esto no responde a su pregunta, pero: en una configuración de datos grandes, puede estar bien sintonizar el regularizador usando una sola división de tren / prueba, en lugar de hacerlo aproximadamente 10 veces en validación cruzada (o más para bootstrap). El tamaño y la representatividad de la muestra elegida para el conjunto de desarrollo determina la precisión de la estimación del regularizador óptimo.
En mi experiencia, la pérdida prolongada es relativamente plana en un rango considerable de regularizadores. Estoy seguro de que este hecho puede no ser válido para otros problemas.
fuente