En mi humilde opinión, una de las peores propiedades de la validación de resistencia es psicológica en lugar de estadística: veo mucha resistencia que se interpreta como si fuera un experimento de validación independiente (con independencia ya en el nivel experimental), aunque muchas de las Los problemas cruciales que veo con la validación de remuestreo pueden y sucederán de la misma manera con la retención (cualquier problema que surja de una división inadecuada).
Aparte de eso, en mi humilde opinión es casi lo mismo que volver a muestrear (al menos como lo he visto hacer en la práctica). Las diferencias son
- El número total de casos probados realmente diferentes es menor (y, en consecuencia, la estimación es menos segura).
- Con la retención, el rendimiento se reivindica para el modelo realmente probado, no para un modelo realmente no probado construido a partir del entrenamiento de retención más los datos de prueba de retención. El nuevo muestreo afirma que el rendimiento medido es una buena aproximación al rendimiento del último modelo. Pero también he visto el enfoque de suspensión utilizado de esta manera ("validación de conjunto").
Esbensen y Geladi: Principios de validación adecuada: uso y abuso de re-muestreo para validación, Journal of Chemometrics, 24 (3-4), 168-187 argumenta que, en términos prácticos, ambos no son muy buenas aproximaciones para conjuntos de datos (validación experimentos) que permiten medir las características de rendimiento realmente interesantes.
podría terminar sobreajustando los datos de prueba de la misma manera que puede sobreajustar a los datos de entrenamiento.
Igual que con cualquier otra validación: si realiza un modelado basado en datos / selección de modelo, se necesita otro nivel de validación independiente. No veo ninguna diferencia aquí entre esquemas de espera y remuestreo.
primero usando la validación de retención para construir y probar un modelo, luego como un paso de validación volver a dibujar el conjunto de retención varias veces para mostrar que mis estimaciones de error de predicción (en el conjunto de prueba) son robustas al error de muestreo en la prueba conjunto. ¿Es esta una mala idea por alguna razón?
Creo que sí, sí: en mi humilde opinión, se debe usar una configuración anidada
(a menos que desee sugerir que la validación de retención podría y debería repetirse también; ese es un enfoque válido que difiere de la validación de conjunto iterado / repetido solo por interpretación : si la declaración de rendimiento se refiere a los muchos modelos realmente probados o si se extrapola al modelo creado con todos los datos).
cbeleites descontentos con SX
fuente