Rejilla finura y sobreajuste al ajustar

8

Me pregunto sobre

  • la finura de rejilla óptima y
  • cuál es la relación entre la finura de rejilla y el sobreajuste

en métodos de regularización como LASSO, regresión de cresta o red elástica.

Supongamos que quiero ajustar un modelo de regresión usando LASSO a una muestra de 500 observaciones (no tengo los datos; esto es solo un ejemplo). Supongamos también que tengo
(A) una cuadrícula con 100 diferentesλ valores en el rango entre λmin y λmax
(B) una cuadrícula con 1000 diferentesλvalores en el mismo rango,
dondeλ es el parámetro que controla el grado de penalización.

Preguntas:

  1. ¿Puedo decir algo sobre la propensión a sobreajustar en (A) versus (B) ?
  2. ¿Puedo determinar la finura óptima de la cuadrícula? ¿Cómo?
Richard Hardy
fuente

Respuestas:

7

¿Puedo decir algo sobre la propensión a sobreajustar en (A) versus (B)?

Siempre que ambas cuadrículas cubran un rango suficiente, la finura de la cuadrícula realmente no tiene nada que ver con el sobreajuste en este problema (aunque una cuadrícula gruesa podría no ajustarse si se salta un intervalo rentable). No es como si probar demasiados valores cambiara de alguna manera el aspecto fuera de la muestra. * En el caso de estas regresiones penalizadas, definitivamente queremos optimizar nuestra función de probabilidad penalizada para los valoresλ, y no importa cuántos valores de λprobamos porque el rendimiento fuera de la muestra para un conjunto de datos fijo y una partición fija es completamente determinista. Más aún, la métrica fuera de la muestra no se ve alterada en absoluto por cuántos valoresλusted prueba Una cuadrícula más gruesa puede significar que omita el mínimo absoluto en su métrica fuera de muestra, pero encontrar el mínimo absoluto probablemente no es deseable en primer lugar porque los hiperparámetros tienden a ser pobremente estimados, y las propiedades de muestra finita significan que los datos Las limitaciones serán una fuente de ruido en esa estimación que abrumará los ligeros cambios en la distancia entre puntos de cuadrícula adyacentes: el error estándar de su estimación tenderá a reducir las diferencias en la finura de la cuadrícula.

Si está realmente preocupado de que la métrica de rendimiento fuera de muestra pueda ser demasiado optimista, podría adoptar la regla de error estándar 1, que selecciona el modelo más regularizado dentro de 1 error estándar del mínimo. De esa manera, eres un poco más conservador y eliges un modelo menos complejo.

¿Puedo determinar la finura óptima de la cuadrícula? ¿Cómo?

El algoritmo LARS no define a priori qué valores deλverificar; más bien,λ se cambia continuamente y el algoritmo verifica los valores de λpara el cual un coeficiente va de 0 a un valor distinto de cero. Esos valores deλdonde un nuevo coeficiente es distinto de cero, con la observación de que las rutas de los coeficientes son lineales por partes en el caso del lazo, por lo que no hay pérdida de información simplemente almacenando los nudos en ese caso. Sin embargo, LARS solo funciona cuando las rutas de coeficientes son lineales por partes. La penalización de cresta nunca reduce un coeficiente a cero con precisión, por lo que todas las rutas de coeficientes son suaves y siempre distintas de cero; asimismo regresiones netas elásticas (excluyendo el caso de regresiones netas elásticas que también son regresiones de lazo).

Pero la mayoría de las personas usan GLMNET porque a menudo es más rápido. En términos de determinar qué cuadrícula deλpara buscar, recomiendo leer el artículo de GLMNET "Rutas de regularización para modelos lineales generalizados a través del descenso coordinado" de Jerome Friedman, Trevor Hastie y Rob Tibshirani. En él, desarrollan un algoritmo muy eficiente para estimar las crestas, el lazo y las regresiones netas elásticas. El algoritmo verifica un valor deλmax para cual β es el vector cero y luego identifica un valor mínimo λmin relativo a λmax. Finalmente, generan una secuencia de valores entre los dos uniformemente en la escala logarítmica. Esta cuadrícula es suficiente para la mayoría de los propósitos, aunque omite la propiedad que sabrá con precisión cuando un coeficiente se estima en un valor distinto de cero. Los arranques en caliente se utilizan para proporcionar soluciones mucho más rápidamente y son compatibles con muchos GLM comunes.


* Puede estar pensando en esto desde la perspectiva de una red neuronal artificial, donde a veces se usa la detención temprana para lograr la regularización, pero ese es un problema completamente no relacionado (es decir, que el algoritmo de optimización no puede alcanzar un nivel óptimo, por lo que el modelo es forzado a ser menos complejo).

Sycorax dice reinstalar a Mónica
fuente
2
No creo que tengas razón en la descripción de cómo glmnet elige al usuario lambdas777. Consulte la sección 2.5 del documento, donde discuten la elección del lambda mínimo y máximo, y los intermedios. Puede estar pensando en LARS, que de hecho hace lo que usted describe, pero no creo que se haya generalizado para incluir una penalización por cresta.
Matthew Drury
@MatthewDrury Bah. Tienes razón. Estaba pensando en LARS.
Sycorax dice Reinstate Monica
He leído algo de material relacionado y tal vez también ese documento, pero lo siguiente no fue completamente convincente para mí: finalmente, generan una secuencia de valores entre los dos de manera uniforme en la escala logarítmica. ¿Hay alguna justificación que demuestre que esta es una opción óptima? Además, ¿cómo eligen la finura de la cuadrícula? No recuerdo haber leído una buena explicación.
Richard Hardy
1
He observado en todos mis usos de glmnet que el cambio en la probabilidad de registro entre puntos de cuadrícula consecutivos siempre está dominado por el error estándar estimado de dichas estimaciones. Por lo tanto, la cuadrícula estándar es lo suficientemente fina como para que cualquier información obtenida de una resolución aumentada esté dominada por la incertidumbre en la estimación lambda.
Matthew Drury
1
@amoeba El caso de tamaño de muestra pequeño se vería abrumado por la variación en las estimaciones de CV: cualquiera λen la vecindad del mínimo sería esencialmente lo mismo. Es por eso que no hay una recompensa real para aumentar la finura de la cuadrícula. También elλlas trayectorias suelen ser curvas agradables, por lo que el aumento de la finura de la cuadrícula solo poblará el espacio entre los estiamtes. En los ejemplos que he visto, la curva de respuesta no oscila dramáticamente hacia arriba y hacia abajo, especialmente no en un intervalo fino.
Sycorax dice Reinstate Monica