Mi comprensión de la regresión LASSO es que los coeficientes de regresión se seleccionan para resolver el problema de minimización:
En la práctica, esto se hace usando un multiplicador de Lagrange, lo que hace que el problema se resuelva
¿Cuál es la relación entre y ? Wikipedia, inútilmente, simplemente afirma que es "dependiente de los datos".
¿Porqué me importa? Primero por curiosidad intelectual. Pero también me preocupan las consecuencias de seleccionar por validación cruzada.
Específicamente, si estoy haciendo una validación cruzada n-fold, ajusto n modelos diferentes en n particiones diferentes de mis datos de entrenamiento. Luego comparo la precisión de cada uno de los modelos en los datos no utilizados para una . Pero el mismo implica una restricción diferente ( ) para diferentes subconjuntos de datos (es decir, es "dependiente de los datos").
¿No es el problema de validación cruzada que realmente quiero resolver para encontrar la que ofrece la mejor compensación de precisión de sesgo?
Puedo tener una idea aproximada del tamaño de este efecto en la práctica calculando para cada división de validación cruzada y y mirando la distribución resultante. En algunos casos, la restricción implícita ( ) puede variar sustancialmente en silencio en mis subconjuntos de validación cruzada. Donde por sustancialmente quiero decir el coeficiente de variación en .
fuente
Respuestas:
Esta es la solución estándar para la regresión de crestas :
También sabemos que , entonces debe ser cierto que∥β∥=t
que no es fácil de resolver para .λ
Su mejor opción es seguir haciendo lo que está haciendo: calcule en la misma submuestra de datos a través de múltiples valores .t λ
fuente