¿Alguna desventaja de la red elástica sobre el lazo?

8

¿Cuáles son las desventajas de usar una red elástica en comparación con el lazo? Sé que la red elástica es capaz de seleccionar grupos de variables cuando están altamente correlacionadas.

  1. No tiene el problema de seleccionar más de predictores cuando . Mientras que el lazo se satura cuando .nortepagsnortepagsnorte

  2. Cuando hay predictores altamente correlacionados, el lazo tiende a elegir un solo predictor del grupo.

  3. Cuando y los predictores están correlacionados, el rendimiento de predicción del lazo es menor que el de la cresta.nortepags

Todas estas desventajas del lazo son superadas por la red elástica.

Lo que no entiendo es cuándo se debe usar el lazo. ¿Hay alguna razón para usarlo cuando la red elástica funciona mejor que el lazo? ¿Cuáles son las desventajas de usar una red elástica en algunos casos? ¿En qué casos el lazo sería una mejor opción?

Ville
fuente

Respuestas:

8

Una desventaja es el costo computacional. Debe validar de forma cruzada el peso relativo de la penalización L1 frente a L2, , y eso aumenta el costo computacional por el número de valores en la cuadrícula .αα

Otra desventaja (pero al mismo tiempo una ventaja) es la flexibilidad del estimador. Con mayor flexibilidad viene una mayor probabilidad de sobreajuste. Puede ser que el óptimo para la población y para el tamaño de muestra dado sea , convirtiendo la red elástica en lazo, pero resulta que elige un valor diferente debido al azar (porque ese valor ofrece un mejor rendimiento cuando se valida en forma cruzada en muestra particular).α0 0

Richard Hardy
fuente
1
Comentario menor con respecto a su segundo punto: el lazo y la red elástica son estimadores para el mismo modelo . Como tal, no hay diferencia en la flexibilidad del modelo.
hejseb
2
@hejseb: con LASSO, hay un único parámetro que se optimiza durante la validación cruzada: . En elastic-net, puede optimizar sobre y , lo que significa más oportunidades para sobreajustar durante el proceso de selección de validación cruzada. Por otro lado, solo usar los valores predeterminados de tiende a funcionar realmente bien, por lo que a menudo solo se optimiza. Así que no estoy de acuerdo con su declaración, porque considero que y parte del modelo (aunque entiendo la ambigüedad). λαλαλαλ
Cliff AB
3
@hejseb, excelente punto! Ahora corregido. Cliff AB, creo que la definición del modelo no necesita incluir los parámetros de ajuste del estimador (lazo, red elástica, ...), queα y λson, así que para mí el comentario de hejseb tiene mucho sentido. Pienso en la línea de definir un modelo para la población (un modelo lineal en este caso) y estimar sus parámetros (que incluyenβs pero no α o λ) por algún estimador.
Richard Hardy