Entiendo qué papel juega lambda en una regresión de red elástica. Y puedo entender por qué uno seleccionaría lambda.min, el valor de lambda que minimiza el error de validación cruzada.
Mi pregunta es ¿En qué parte de la literatura estadística se recomienda usar lambda.1se, que es el valor de lambda que minimiza el error CV más un error estándar ? Parece que no puedo encontrar una cita formal, o incluso una razón por la cual esto es a menudo un buen valor. Entiendo que es una regularización más restrictiva y reducirá los parámetros más hacia cero, pero no siempre estoy seguro de las condiciones bajo las cuales lambda.1se es una mejor opción sobre lambda.min. ¿Alguien puede ayudar a explicar?
Respuestas:
Friedman, Hastie y Tibshirani (2010) , citando Los elementos del aprendizaje estadístico , escriben:
La razón para usar un error estándar, a diferencia de cualquier otra cantidad, parece ser porque es, bueno ... estándar. Krstajic, et al (2014) escriben (énfasis en negrita mío):
fuente
El libro de Breiman et al. (Citado en la cita de Krstajic de la otra respuesta) es la referencia más antigua que he encontrado para la regla 1SE.
Estos son los árboles de clasificación y regresión de Breiman, Friedman, Stone y Olshen (1984). Ellos "derivan" esta regla en la sección 3.4.3.
Entonces, si necesita una cita formal, esa parece ser la fuente original.
fuente