A menudo veo personas hablando de validación cruzada 5x2 como un caso especial de validación cruzada anidada .
Supongo que el primer número (aquí: 5) se refiere al número de pliegues en el bucle interno y el segundo número (aquí: 2) se refiere al número de pliegues en el bucle externo. Entonces, ¿en qué se diferencia esto de un enfoque de selección y evaluación de modelos "tradicionales"? Por "tradicional", quiero decir
- dividir el conjunto de datos en un entrenamiento separado (por ejemplo, 80%) y un conjunto de prueba
- utilice la validación cruzada k-fold (p. ej., k = 10) para el ajuste de hiperparámetros y la selección del modelo en el conjunto de entrenamiento
- evaluar el rendimiento de generalización del modelo seleccionado utilizando el conjunto de prueba
¿No es 5x2 exactamente igual excepto que el conjunto de prueba y entrenamiento tiene el mismo tamaño si k = 2?
Respuestas:
5x2cv por lo que he visto en la literatura, siempre se refieren a una repetición 5 de 2 veces. No hay anidamiento en absoluto. haz 2 veces (división 50/50 entre el tren y la prueba), repítelo 4 veces más. El 5x2cv fue popularizado por el artículo Pruebas estadísticas aproximadas para comparar los algoritmos supervisados de aprendizaje de clasificación por Dietterich como una forma de obtener no solo una buena estimación del error de generalización sino también una buena estimación de la varianza de ese error (para realizar pruebas estadísticas )
fuente
2 repeticiones en el bucle externo significan que repites tu CV 5 veces 2 veces en todo el conjunto de trenes. Cada vez que la subdivisión en pliegues será diferente.
Esto se usa principalmente para mejores estimaciones del rendimiento del modelo, como ejecutar pruebas estadísticas sobre si un modelo funciona estadísticamente significativamente mejor que otro.
El CV anidado no es críticamente importante si su conjunto de datos es grande y no tiene valores atípicos. Si sus datos tienen valores atípicos, entonces el rendimiento de la validación cruzada puede ser drásticamente diferente dependiendo de en qué pliegues / pliegues se encuentren estos valores atípicos. Por lo tanto, repite el CV varias veces.
fuente