Buena literatura sobre validación cruzada

Respuestas:

5

Si se va a utilizar la validación cruzada para la selección de modelo / característica, vale la pena tener en cuenta que es posible ajustar en exceso la estadística de validación cruzada y terminar con un modelo que funciona mal y la estadística optimizada de validación cruzada puede ser una estimación de rendimiento severamente optimista. Los efectos de esto pueden ser sorprendentemente grandes. Vea Ambroise y McLachlan para obtener un ejemplo de esto en una configuración de selección de características y Cawley y Talbot para un ejemplo en una configuración de selección de modelo.

Dikran Marsupial
fuente
Es bueno mencionarlo, pero debería decirse doblemente que esos son ejemplos de mal uso o sobrevaloración de CV, no algunos inconvenientes del método en sí.
1
de hecho, sin embargo, es una forma en la que se usa mal con bastante frecuencia, por lo que es importante tener en cuenta al aprender sobre la validación cruzada. Más validación cruzada es a menudo una buena solución, es decir, validación cruzada anidada, o como Stone lo pone validación de "doble cruz". El problema afecta prácticamente cualquier característica o criterio de selección de modelo que esté optimizado para obtener un modelo; No hay nada especial en la validación cruzada en este sentido.
Dikran Marsupial