Me encontré con este artículo de 2012 de Gitte Vanwinckelen y Hendrik Blockeel cuestionando la utilidad de la validación cruzada repetida, que se ha convertido en una técnica popular para reducir la variación de la validación cruzada.
Los autores demostraron que, si bien la validación cruzada repetida disminuye la varianza de las predicciones del modelo, dado que el mismo conjunto de datos de muestra se está volviendo a muestrear, la media de las estimaciones de validación cruzada muestreadas converge a una estimación sesgada de la verdadera precisión predictiva y, por lo tanto, no es útil.
¿Debería usarse la validación cruzada repetida a pesar de estas limitaciones?
cross-validation
RobertF
fuente
fuente
Respuestas:
El argumento que parece estar haciendo el periódico me parece extraño.
Según el documento, el objetivo de la solicitud es estimar , la predicción de rendimiento esperado del modelo en nuevos datos, dado que el modelo fue entrenado en el conjunto de datos observados S . Cuando llevamos a cabo k CV -fold, se obtiene una estimación A de este número. Debido a la partición aleatoria de S en k pliegues, esto es una variable aleatoria A ~ f ( A ) con media μ k y varianza σ 2 k . En contraste, el CV repetido n veces produce una estimación con la misma mediaα2 S k A^ S k A^∼f(A) μk σ2k n pero menor varianza σ 2 k / n .μk σ2k/n
Obviamente, . Este sesgo es algo que tenemos que aceptar.α2≠μk
Sin embargo, el error esperado será mayor para los pequeños n , y será la más grande para n = 1 , al menos bajo suposiciones razonables sobre f ( A ) , por ejemplo cuando A ˙ ~ N ( μ k , σ 2 k / n ) . En otras palabras, el CV repetido permite obtener una estimación más precisa de μ kE[|α2−A^|2] n n=1 f(A) A^∼˙N(μk,σ2k/n) μk y es bueno porque da una estimación más precisa de .α2
Por lo tanto, el CV repetido es estrictamente más preciso que el CV no repetido.
¡Los autores no discuten con eso! En cambio, afirman, según las simulaciones, que
Esto solo significa que en sus simulaciones fue bastante bajo; y, de hecho, el tamaño de muestra más bajo que usaron fue 200 , que probablemente sea lo suficientemente grande como para producir pequeños σ 2 k . (La diferencia en las estimaciones obtenidas con CV no repetido y CV repetido 30 veces es siempre pequeña.) Con tamaños de muestra más pequeños, uno puede esperar una mayor varianza entre repeticiones.σ2k 200 σ2k
CUEVA: ¡Intervalos de confianza!
Otro punto que los autores están haciendo es que
Parece que se refieren a intervalos de confianza para la media en las repeticiones CV. ¡Estoy totalmente de acuerdo en que esto no tiene sentido informar! ¡Cuantas más veces se repita el CV, más pequeño será este IC, pero a nadie le interesa el IC en torno a nuestra estimación de ! Nos preocupamos por el IC en torno a nuestra estimación de α 2 .μk α2
Los autores también informan sobre los IC para el CV no repetido, y no estoy del todo claro para mí cómo se construyeron estos IC. Supongo que estos son los IC para las medias en los pliegues. ¡Yo diría que estos IC tampoco tienen mucho sentido!k
Eche un vistazo a uno de sus ejemplos: la precisión delμk
adult
conjunto de datos con el algoritmo NB y el tamaño de 200 muestras. Obtienen 78.0% con CV no repetido, IC (72.26, 83.74), 79.0% (77.21, 80.79) con CV repetido 10 veces y 79.1% (78.07, 80.13) con CV repetido 30 veces. Todos estos IC son inútiles, incluido el primero. La mejor estimación de es 79.1%. Esto corresponde a 158 éxitos de 200. Esto produce un intervalo de confianza binomial del 95% de (72.8, 84.5), incluso más amplio que el primero reportado. Si quisiera informar un poco de CI, este es el que informaría.MÁS AVISO GENERAL: varianza de CV.
Escribiste ese CV repetido
Uno debe tener muy claro lo que quiere decir con la "varianza" de CV. El CV repetido reduce la varianza de la estimación de . Tenga en cuenta que en el caso de CV de dejar uno fuera (LOOCV), cuando k = N , esta varianza es igual a cero. Sin embargo, a menudo se dice que LOOCV tiene en realidad la mayor varianza de todos los CV de k- pliegues posibles . Ver, por ejemplo, aquí: Varianza y sesgo en la validación cruzada: ¿por qué el CV de dejar-fuera tiene una mayor varianza?μk k=N k
¿Porqué es eso? Esto se debe a LOOCV tiene la mayor varianza como una estimación de , que es la predicción de rendimiento esperado del modelo en nuevos datos cuando se construyó en un nuevo conjunto de datos del mismo tamaño que S . Este es un tema completamente diferente.α1 S
fuente