¿Por qué glmnet utiliza una red elástica "ingenua" del papel original de Zou & Hastie?

27

El documento original de red elástica Zou & Hastie (2005) La regularización y la selección de variables a través de la red elástica introdujeron la función de pérdida neta elástica para la regresión lineal (aquí supongo que todas las variables están centradas y escaladas a la varianza unitaria): pero lo llamó "red elástica ingenua". Argumentaron que realiza una doble contracción (lazo y cresta), tiende a contraerse demasiado y puede mejorarse volviendo a escalar la solución resultante de la siguiente manera: \ hat \ beta ^ * = (1+ \ lambda_2) \ hat \ beta. Dieron algunos argumentos teóricos y evidencia experimental de que esto conduce a un mejor rendimiento.

L=1nyXβ2+λ1β1+λ2β22,
β^=(1+λ2)β^.

Sin embargo, el glmnetartículo posterior Friedman, Hastie y Tibshirani (2010) Las rutas de regularización para modelos lineales generalizados a través del descenso coordinado no utilizaron este cambio de escala y solo tenían una breve nota al pie de página que decía

Zou y Hastie (2005) llamaron a esta pena la red elástica ingenua , y prefirieron una versión reescalada que llamaron red elástica. Dejamos caer esta distinción aquí.

No se da más explicación allí (ni en ninguno de los libros de texto de Hastie et al.). Me resulta un tanto desconcertante. ¿Los autores dejaron de reescalar porque lo consideraron demasiado ad hoc ? porque funcionó peor en algunos experimentos posteriores? porque no estaba claro cómo generalizarlo al caso GLM? No tengo idea. Pero, en cualquier caso, el glmnetpaquete se hizo muy popular desde entonces y, por lo tanto, mi impresión es que hoy en día nadie está usando el cambio de escala de Zou & Hastie, y la mayoría de las personas probablemente ni siquiera son conscientes de esta posibilidad.

Pregunta: después de todo, ¿esto fue una buena idea o una mala idea?

Con la glmnetparametrización, el cambio de escala de Zou y Hastie debe ser

β^=(1+λ(1α))β^.
ameba dice Reinstate Monica
fuente
1
Dado que en el documento de Glment, el objetivo es adaptarse a toda la ruta de regularización, posiblemente la idea es que el cambio de escala solo sería una transformación monotónica de la ruta.
Matthew Drury
1
@MatthewDrury Eso es cierto, pero aún así si Friedman et al. creía que reescalar es una buena idea, no lo dejarían fuera del papel y, en particular, del glmnetcódigo. No está disponible allí ni siquiera como una característica opcional (su código anterior que acompañaba al documento de 2005, por supuesto, admite la reescalada).
ameba dice Reinstate Monica
44
Desafortunadamente, el código glmnet público es completamente ilegible ...
Matthew Drury

Respuestas:

25

Envié esta pregunta por correo electrónico a Zou y a Hastie y obtuve la siguiente respuesta de Hastie (espero que no le importe que lo cite aquí):

Creo que en Zou et al estábamos preocupados por el sesgo adicional, pero, por supuesto, el cambio de escala aumenta la variación. Por lo tanto, solo cambia uno a lo largo de la curva de compensación de sesgo-varianza. Pronto incluiremos una versión de lazo relajado que es una mejor forma de reescalado.

Interpreto estas palabras como un aval de alguna forma de "reescalado" de la solución de red elástica de vainilla, pero Hastie ya no parece respaldar el enfoque particular presentado en Zou & Hastie 2005.


A continuación, revisaré brevemente y compararé varias opciones de reescalado.

Me va a utilizar glmnetparametrización de la pérdida con la solución indicada como .

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2),
β^
  1. El enfoque de Zou & Hastie es usarTenga en cuenta que esto produce un cambio de escala no trivial para cresta pura cuando que posiblemente no tenga mucho sentido. Por otro lado, esto no produce un cambio de escala para lazo puro cuando , a pesar de varias afirmaciones en la literatura de que el estimador de lazo podría beneficiarse de un cambio de escala (ver más abajo).

    β^rescaled=(1+λ(1α))β^.
    α=0α=1
  2. Para el lazo puro, Tibshirani sugirió usar el híbrido lasso-OLS, es decir, usar el estimador OLS usando el subconjunto de predictores seleccionados por lazo. Esto hace que el estimador sea consistente (pero deshace la contracción, lo que puede aumentar el error esperado). Se puede usar el mismo enfoque para red elástica pero el problema potencial es que la red elástica puede seleccionar más de predictores y OLS se descompondrán (en contraste, el lazo puro nunca selecciona más de predictores).

    β^elastic-OLS-hybrid=OLS(Xiβ^i0)
    nn
  3. Lazo relajado mencionado en el correo electrónico de Hastie citado anteriormente es una sugerencia para ejecutar otro lazo en el subconjunto de predictores seleccionados por el primer lazo. La idea es utilizar dos penalizaciones diferentes y seleccionar ambas mediante validación cruzada. Se podría aplicar la misma idea a la red elástica, pero esto parecería requerir cuatro parámetros de regularización diferentes y ajustarlos es una pesadilla.

    Sugiero un esquema de red elástica relajado más simple : después de obtener , realice una regresión de cresta con y la misma en el subconjunto seleccionado de predictores:Esto (a) no requiere ningún parámetro de regularización adicional, (b) funciona para cualquier número de predictores seleccionados, y (c) no hace nada si uno comienza con una cresta pura. Suena bien para mí.β^α=0λ

    β^relaxed-elastic-net=Ridge(Xiβ^i0).

Actualmente estoy trabajando con un pequeño conjunto de datos con y , en donde es bien predijo por los pocos ordenadores principales de . Compararé el rendimiento de los estimadores anteriores usando 100 veces la validación cruzada repetida 11 veces. Como medida de rendimiento, estoy usando un error de prueba, normalizado para producir algo así como un R cuadrado:En la figura siguiente, las líneas discontinuas corresponden al estimador neto elástico de vainilla y tres subtramas corresponden a los tres enfoques de reescalado:npn=44p=3000yX

Rtest2=1ytestβ^0Xtestβ^2ytestβ^02.
β^

ingrese la descripción de la imagen aquí

Entonces, al menos en estos datos, los tres enfoques superan al estimador de la red elástica de vainilla, y la "red elástica relajada" funciona mejor.

ameba dice Reinstate Monica
fuente