¿Puedo decir algo sobre la propensión a sobreajustar en (A) versus (B)?
Siempre que ambas cuadrículas cubran un rango suficiente, la finura de la cuadrícula realmente no tiene nada que ver con el sobreajuste en este problema (aunque una cuadrícula gruesa podría no ajustarse si se salta un intervalo rentable). No es como si probar demasiados valores cambiara de alguna manera el aspecto fuera de la muestra. * En el caso de estas regresiones penalizadas, definitivamente queremos optimizar nuestra función de probabilidad penalizada para los valoresλ, y no importa cuántos valores de λprobamos porque el rendimiento fuera de la muestra para un conjunto de datos fijo y una partición fija es completamente determinista. Más aún, la métrica fuera de la muestra no se ve alterada en absoluto por cuántos valoresλusted prueba Una cuadrícula más gruesa puede significar que omita el mínimo absoluto en su métrica fuera de muestra, pero encontrar el mínimo absoluto probablemente no es deseable en primer lugar porque los hiperparámetros tienden a ser pobremente estimados, y las propiedades de muestra finita significan que los datos Las limitaciones serán una fuente de ruido en esa estimación que abrumará los ligeros cambios en la distancia entre puntos de cuadrícula adyacentes: el error estándar de su estimación tenderá a reducir las diferencias en la finura de la cuadrícula.
Si está realmente preocupado de que la métrica de rendimiento fuera de muestra pueda ser demasiado optimista, podría adoptar la regla de error estándar 1, que selecciona el modelo más regularizado dentro de 1 error estándar del mínimo. De esa manera, eres un poco más conservador y eliges un modelo menos complejo.
¿Puedo determinar la finura óptima de la cuadrícula? ¿Cómo?
El algoritmo LARS no define a priori qué valores deλverificar; más bien,λ se cambia continuamente y el algoritmo verifica los valores de λpara el cual un coeficiente va de 0 a un valor distinto de cero. Esos valores deλdonde un nuevo coeficiente es distinto de cero, con la observación de que las rutas de los coeficientes son lineales por partes en el caso del lazo, por lo que no hay pérdida de información simplemente almacenando los nudos en ese caso. Sin embargo, LARS solo funciona cuando las rutas de coeficientes son lineales por partes. La penalización de cresta nunca reduce un coeficiente a cero con precisión, por lo que todas las rutas de coeficientes son suaves y siempre distintas de cero; asimismo regresiones netas elásticas (excluyendo el caso de regresiones netas elásticas que también son regresiones de lazo).
Pero la mayoría de las personas usan GLMNET porque a menudo es más rápido. En términos de determinar qué cuadrícula deλpara buscar, recomiendo leer el artículo de GLMNET "Rutas de regularización para modelos lineales generalizados a través del descenso coordinado" de Jerome Friedman, Trevor Hastie y Rob Tibshirani. En él, desarrollan un algoritmo muy eficiente para estimar las crestas, el lazo y las regresiones netas elásticas. El algoritmo verifica un valor deλmax para cual β es el vector cero y luego identifica un valor mínimo λmin relativo a λmax. Finalmente, generan una secuencia de valores entre los dos uniformemente en la escala logarítmica. Esta cuadrícula es suficiente para la mayoría de los propósitos, aunque omite la propiedad que sabrá con precisión cuando un coeficiente se estima en un valor distinto de cero. Los arranques en caliente se utilizan para proporcionar soluciones mucho más rápidamente y son compatibles con muchos GLM comunes.
* Puede estar pensando en esto desde la perspectiva de una red neuronal artificial, donde a veces se usa la detención temprana para lograr la regularización, pero ese es un problema completamente no relacionado (es decir, que el algoritmo de optimización no puede alcanzar un nivel óptimo, por lo que el modelo es forzado a ser menos complejo).