¿Por qué se filtra información sobre los datos de validación si evalúo el rendimiento del modelo en los datos de validación al ajustar los hiperparámetros?

9

En el aprendizaje profundo de François Chollet con Python dice:

Como resultado, ajustar la configuración del modelo en función de su rendimiento en el conjunto de validación puede resultar rápidamente en un ajuste excesivo para el conjunto de validación, aunque su modelo nunca esté directamente capacitado sobre él.

Central a este fenómeno es la noción de fugas de información. Cada vez que ajusta un hiperparámetro de su modelo en función del rendimiento del modelo en el conjunto de validación, alguna información sobre los datos de validación se filtra en el modelo . Si hace esto solo una vez, para un parámetro, se filtrarán muy pocos bits de información y su conjunto de validación seguirá siendo confiable para evaluar el modelo. Pero si repite esto muchas veces (ejecutando un experimento, evaluando el conjunto de validación y modificando su modelo como resultado), filtrará una cantidad cada vez más importante de información sobre el conjunto de validación en el modelo.

¿Por qué se filtra información sobre los datos de validación si evalúo el rendimiento del modelo en los datos de validación al ajustar los hiperparámetros?

fabiomaia
fuente
Por cierto: no solo depende de la frecuencia con la que hace esto, sino también de la incertidumbre aleatoria de su evaluación de rendimiento (objetivo funcional) durante la optimización.
cbeleites descontento con SX
1
@cbeleites Lo siento, ¿qué significa eso?
fabiomaia
1
Si los resultados de la validación utilizados para la optimización fueran perfectos (es decir, ni error sistemático ni aleatorio), la optimización elegiría el modelo verdaderamente óptimo, no tendría ningún sobreajuste y otra validación perfecta independiente del modelo elegido produciría exactamente el mismo resultado. La optimización podría incluso tolerar errores sistemáticos (sesgo) siempre que no cambie con los factores que usted varía durante la optimización. Ahora considere lo que sucede si hay un error aleatorio (incertidumbre de varianza) en la estimación de rendimiento: obtiene ruido sobre el verdadero "paisaje" de rendimiento.
Cbeleites descontento con SX
1
Este ruido puede hacer que algún punto (configuración de hiperparámetro) se vea mejor de lo que realmente es, por lo que esas configuraciones de hiperparámetro pueden elegirse accidentalmente (y erróneamente). La probabilidad de que esto ocurra aumenta con a) la cantidad de veces que observa dichos valores de rendimiento yb) la cantidad de ruido que tiene además del rendimiento real (en comparación con el aumento real del rendimiento). No se trata de por qué la reutilización de los resultados de validación es una fuga de datos, sino de cómo ocurre el sobreajuste respectivo y qué tan serio es el problema que debe esperar, por lo tanto, solo un comentario.
Cbeleites descontento con SX

Respuestas:

11

ϕθ

θϕϕθ

Sycorax dice reinstalar a Mónica
fuente
1
En retrospectiva, esto era bastante obvio. Pero, ¿qué significa "Si hace esto solo una vez, para un parámetro, entonces se filtrarán muy pocos bits de información"? ¿Qué se entiende allí y cómo contrasta con el otro caso en el que "repites esto muchas veces"?
fabiomaia
44
210
1
Eso tiene mucho sentido. La redacción del libro original no fue la mejor. ¡Gracias!
fabiomaia
La redacción en el libro es excelente.
Michael M
2
Para usted puede parecer "excelente" porque probablemente ya sepa de qué está hablando el autor. El comentario de @Sycorax fue mucho más explícito y útil para mí.
fabiomaia