Sé que realizar el ajuste de hiperparámetros fuera de la validación cruzada puede conducir a estimaciones sesgadas de validez externa, porque el conjunto de datos que usa para medir el rendimiento es el mismo que usó para ajustar las características.
Lo que me pregunto es qué tan grave es este problema . Puedo entender cómo sería realmente malo para la selección de funciones, ya que esto le brinda una gran cantidad de parámetros para ajustar. Pero, ¿qué sucede si está usando algo como LASSO (que tiene un solo parámetro, la intensidad de la regularización) o un bosque aleatorio sin selección de características (que puede tener algunos parámetros pero nada tan dramático como agregar / quitar características de ruido)?
En estos escenarios, ¿qué tan optimista podría esperar que sea su estimación del error de entrenamiento?
Agradecería cualquier información sobre esto: estudios de casos, documentos, anecdatos, etc. ¡Gracias!
EDIT: Para aclarar, estoy no hablar de estimar el rendimiento del modelo de datos de entrenamiento (es decir, no utilizando la validación cruzada en todos). Por "ajuste de hiperparámetro fuera de la validación cruzada" me refiero a usar la validación cruzada solo para estimar el rendimiento de cada modelo individual, pero sin incluir un segundo bucle de validación cruzada externo para corregir el sobreajuste dentro del procedimiento de ajuste de hiperparámetro (a diferencia de sobreajuste durante el procedimiento de entrenamiento). Ver, por ejemplo, la respuesta aquí .
fuente
Cualquier algoritmo de aprendizaje complejo, como SVM, redes neuronales, bosque aleatorio, ... puede alcanzar el 100% de precisión de entrenamiento si lo permite (por ejemplo, a través de una regularización débil / nula), con un rendimiento de generalización absolutamente horrible como resultado.
En resumen, puede terminar fácilmente con un clasificador perfecto en su conjunto de entrenamiento que no aprendió absolutamente nada útil en un conjunto de prueba independiente. Eso es lo malo que es.
fuente