Si bien los resultados del conjunto de prueba privado no se pueden utilizar para refinar aún más el modelo, ¿no se está seleccionando el modelo de una gran cantidad de modelos basados en los resultados del conjunto de prueba privado? ¿No terminaría usted, solo a través de ese proceso, sobreadaptado al conjunto de prueba privado?
De acuerdo con "Pseudo-Matemáticas y charlatanismo financiero: los efectos del sobreajuste de backtest en el rendimiento fuera de la muestra" por Bailey et.al. es relativamente fácil "sobreajustar" al seleccionar lo mejor de una gran cantidad de modelos evaluados en el mismo conjunto de datos. ¿No está sucediendo eso con la tabla de clasificación privada de Kaggle?
- ¿Cuáles son las justificaciones estadísticas para los modelos con mejor rendimiento en la tabla de clasificación privada que son los modelos que generalizan los datos mejores a los de muestra?
- ¿Las compañías realmente terminan usando los modelos ganadores, o la tabla de clasificación privada está allí solo para proporcionar las "reglas del juego", y las compañías están realmente más interesadas en la idea que surge de la discusión del problema?
Respuestas:
Bueno, los puntos que presenta son justos, sin embargo, creo que hay un problema mucho más real con las personas que se ajustan en exceso en la clasificación pública .
Esto puede suceder cuando se hace más o menos 100 presentaciones, el equipo de prueba pública muy probable que desangrarse a su selección hiperparámetro y por lo tanto sobreajuste. Creo que la tabla de clasificación privada es necesaria a ese respecto.
fuente