¿Es la validación de retención una mejor aproximación de "obtener nuevos datos" que k-fold CV?

10

He estado repensando una respuesta que le di a una pregunta hace un par de semanas

La validación cruzada de retención produce un único conjunto de pruebas que se puede usar repetidamente para la demostración. Todos parecemos estar de acuerdo en que esto es en muchos aspectos una característica negativa, ya que el conjunto extendido podría resultar no representativo a través de la aleatoriedad. Además, podría terminar sobreajustando los datos de prueba de la misma manera que puede sobreajustar a los datos de entrenamiento.

Sin embargo, me parece que la naturaleza estática de una muestra retenida es una mejor aproximación de "obtener más datos" que k-fold CV, y evita el problema de promediar los pliegues. Sin embargo, no puedo encontrar ninguna base estadística para este sentimiento que tengo. ¿Hay alguna lógica en mi intuición?

Por ejemplo, lo que tengo en mente para un próximo proyecto es usar primero la validación de espera para construir y probar un modelo, luego como un paso de validación volver a dibujar el conjunto de espera varias veces para mostrar que mis estimaciones de error de predicción ( en el conjunto de prueba) son robustos al error de muestreo en el conjunto de prueba. ¿Es esta una mala idea por alguna razón? Esta pregunta se hizo antes pero nunca recibió una respuesta.

Shadowtalker
fuente

Respuestas:

6

En mi humilde opinión, una de las peores propiedades de la validación de resistencia es psicológica en lugar de estadística: veo mucha resistencia que se interpreta como si fuera un experimento de validación independiente (con independencia ya en el nivel experimental), aunque muchas de las Los problemas cruciales que veo con la validación de remuestreo pueden y sucederán de la misma manera con la retención (cualquier problema que surja de una división inadecuada).

Aparte de eso, en mi humilde opinión es casi lo mismo que volver a muestrear (al menos como lo he visto hacer en la práctica). Las diferencias son

  • El número total de casos probados realmente diferentes es menor (y, en consecuencia, la estimación es menos segura).
  • Con la retención, el rendimiento se reivindica para el modelo realmente probado, no para un modelo realmente no probado construido a partir del entrenamiento de retención más los datos de prueba de retención. El nuevo muestreo afirma que el rendimiento medido es una buena aproximación al rendimiento del último modelo. Pero también he visto el enfoque de suspensión utilizado de esta manera ("validación de conjunto").

Esbensen y Geladi: Principios de validación adecuada: uso y abuso de re-muestreo para validación, Journal of Chemometrics, 24 (3-4), 168-187 argumenta que, en términos prácticos, ambos no son muy buenas aproximaciones para conjuntos de datos (validación experimentos) que permiten medir las características de rendimiento realmente interesantes.

podría terminar sobreajustando los datos de prueba de la misma manera que puede sobreajustar a los datos de entrenamiento.

Igual que con cualquier otra validación: si realiza un modelado basado en datos / selección de modelo, se necesita otro nivel de validación independiente. No veo ninguna diferencia aquí entre esquemas de espera y remuestreo.

primero usando la validación de retención para construir y probar un modelo, luego como un paso de validación volver a dibujar el conjunto de retención varias veces para mostrar que mis estimaciones de error de predicción (en el conjunto de prueba) son robustas al error de muestreo en la prueba conjunto. ¿Es esta una mala idea por alguna razón?

Creo que sí, sí: en mi humilde opinión, se debe usar una configuración anidada
(a menos que desee sugerir que la validación de retención podría y debería repetirse también; ese es un enfoque válido que difiere de la validación de conjunto iterado / repetido solo por interpretación : si la declaración de rendimiento se refiere a los muchos modelos realmente probados o si se extrapola al modelo creado con todos los datos).

cbeleites descontentos con SX
fuente