¿Por qué lambda "dentro de un error estándar del mínimo" es un valor recomendado para lambda en una regresión neta elástica?

24

Entiendo qué papel juega lambda en una regresión de red elástica. Y puedo entender por qué uno seleccionaría lambda.min, el valor de lambda que minimiza el error de validación cruzada.

Mi pregunta es ¿En qué parte de la literatura estadística se recomienda usar lambda.1se, que es el valor de lambda que minimiza el error CV más un error estándar ? Parece que no puedo encontrar una cita formal, o incluso una razón por la cual esto es a menudo un buen valor. Entiendo que es una regularización más restrictiva y reducirá los parámetros más hacia cero, pero no siempre estoy seguro de las condiciones bajo las cuales lambda.1se es una mejor opción sobre lambda.min. ¿Alguien puede ayudar a explicar?

jhersh
fuente
55
Se puede encontrar una referencia formal en Hastie et al. "Los elementos del aprendizaje estadístico" página 61. Sin embargo, no dan mucha justificación para esta elección ...
Richard Hardy
Ver stats.stackexchange.com/questions/80268 .
ameba dice Reinstate Monica

Respuestas:

22

Friedman, Hastie y Tibshirani (2010) , citando Los elementos del aprendizaje estadístico , escriben:

A menudo usamos la regla de "un error estándar" cuando seleccionamos el mejor modelo; Esto reconoce el hecho de que las curvas de riesgo se estiman con error, por lo que se equivoca del lado de la parsimonia.

La razón para usar un error estándar, a diferencia de cualquier otra cantidad, parece ser porque es, bueno ... estándar. Krstajic, et al (2014) escriben (énfasis en negrita mío):

Breiman y col. [25] han encontrado en el caso de seleccionar el tamaño óptimo del árbol para los modelos de árbol de clasificación que el tamaño del árbol con un error mínimo de validación cruzada genera un modelo que generalmente se sobreajusta. Por lo tanto, en la Sección 3.4.3 de su libro Breiman et al. [25] define una regla de error estándar (1 regla SE) para elegir un tamaño de árbol óptimo, y lo implementan en todo el libro. Para calcular el error estándar para la validación cruzada de un pliegue en V, se necesita calcular la precisión para cada pliegue, y el error estándar se calcula a partir de las precisiones en V de cada pliegue. Hastie y col. [4] define la regla 1 SE como la selección del modelo más parsimonioso cuyo error no es más que un error estándar por encima del error del mejor modelo, y sugieren en varios lugares usar la regla 1 SE para el uso general de validación cruzada.El punto principal de la regla 1 SE, con la que estamos de acuerdo, es elegir el modelo más simple cuya precisión sea comparable con el mejor modelo .

λ

Shadowtalker
fuente
1
¡Gracias! Ahora finalmente puedo citar algo apropiado cuando surge la pregunta para aquellos que no están familiarizados con la elección "estándar" de lambda. El enlace a Krstajic et al también se ve muy bien.
jhersh
Esa cita solo dice que "1se resultó ser óptimo para la clasificación ". ¡Pero la pregunta sobre la regresión ! Hay alternativas Si intentamos, por ejemplo, retroceder a 2se, tenemos el problema de que lambda es demasiado grande y reduce demasiado los coeficientes. Pero podríamos, por ejemplo, reconstruir el modelo que excluye todas las variables no seleccionadas en lambda.1se en el modelo original.
smci
@smci que cita? No está en ninguna de las citas que extraje, lo que sugiere que la regla 1-SE es aplicable en general, no solo en la clasificación.
shadowtalker
6

El libro de Breiman et al. (Citado en la cita de Krstajic de la otra respuesta) es la referencia más antigua que he encontrado para la regla 1SE.

Estos son los árboles de clasificación y regresión de Breiman, Friedman, Stone y Olshen (1984). Ellos "derivan" esta regla en la sección 3.4.3.

Entonces, si necesita una cita formal, esa parece ser la fuente original.

civilstat
fuente