Me gustaría conocer su opinión sobre las diferencias entre la validación cruzada y el arranque para estimar el error de predicción.
¿Funciona mejor para conjuntos de datos pequeños o grandes conjuntos de datos?
fuente
Me gustaría conocer su opinión sobre las diferencias entre la validación cruzada y el arranque para estimar el error de predicción.
¿Funciona mejor para conjuntos de datos pequeños o grandes conjuntos de datos?
Se reduce a varianza y sesgo (como de costumbre). El CV tiende a ser menos sesgado, pero el CV K-fold tiene una variación bastante grande. Por otro lado, el bootstrapping tiende a reducir drásticamente la varianza pero da resultados más sesgados (tienden a ser pesimistas). Se han adaptado otros métodos de arranque para tratar el sesgo de arranque (como las reglas 632 y 632+).
Otros dos enfoques serían el "CV de Montecarlo", también conocido como "CV de dejar fuera del grupo", que realiza muchas divisiones aleatorias de los datos (algo así como mini-entrenamientos y divisiones de prueba). La variación es muy baja para este método y el sesgo no es tan malo si el porcentaje de datos en la reserva es bajo. Además, el CV repetido se pliega en K varias veces y promedia los resultados similares al pliegue en K regular. Soy más parcial a esto ya que mantiene el bajo sesgo y reduce la varianza.
Para tamaños de muestra grandes, los problemas de varianza se vuelven menos importantes y la parte computacional es más un problema. Todavía me apegaría por CV repetido para tamaños de muestra pequeños y grandes.
Algunas investigaciones relevantes están a continuación (especialmente Kim y Molinaro).
Bengio, Y., y Grandvalet, Y. (2005). Sesgo en la estimación de la varianza de la validación cruzada k-fold. Modelado estadístico y análisis para problemas de datos complejos, 75-95.
Braga-Neto, UM (2004). La validación cruzada es válida para la clasificación de microarrays de muestra pequeña Bioinformática, 20 (3), 374–380. doi: 10.1093 / bioinformática / btg419
Efron, B. (1983). Estimación de la tasa de error de una regla de predicción: mejora en la validación cruzada. Revista de la Asociación Americana de Estadística, 316–331.
Efron, B. y Tibshirani, R. (1997). Mejoras en la validación cruzada: El. 632+ método de arranque. Revista de la Asociación Americana de Estadística, 548-560.
Furlanello, C., Merler, S., Chemini, C. y Rizzoli, A. (1997). Una aplicación de la regla bootstrap 632+ a datos ecológicos. WIRN 97.
Jiang, W. y Simon, R. (2007). Una comparación de los métodos de bootstrap y un enfoque de bootstrap ajustado para estimar el error de predicción en la clasificación de microarrays. Estadísticas en medicina, 26 (29), 5320-5334.
Jonathan, P., Krzanowski, W. y McCarthy, W. (2000). Sobre el uso de la validación cruzada para evaluar el rendimiento en la predicción multivariante. Estadísticas e informática, 10 (3), 209–229.
Kim, J.-H. (2009) Estimación de la tasa de error de clasificación: validación cruzada repetida, retención repetida y arranque. Estadística computacional y análisis de datos, 53 (11), 3735–3745. doi: 10.1016 / j.csda.2009.04.009
Kohavi, R. (1995). Un estudio de validación cruzada y bootstrap para la estimación de precisión y la selección del modelo. Conferencia Internacional Conjunta sobre Inteligencia Artificial, 14, 1137–1145.
Martin, J. y Hirschberg, D. (1996). Pequeñas estadísticas de muestra para tasas de error de clasificación I: Mediciones de tasa de error.
Molinaro, AM (2005). Estimación del error de predicción: una comparación de los métodos de remuestreo. Bioinformática, 21 (15), 3301–3307. doi: 10.1093 / bioinformática / bti499
Sauerbrei, W. y Schumacher1, M. (2000). Bootstrap y validación cruzada para evaluar la complejidad de los modelos de regresión basados en datos. Análisis de datos médicos, 26-28.
Tibshirani, RJ y Tibshirani, R. (2009). Una corrección de sesgo para la tasa de error mínima en la validación cruzada. Arxiv preprint arXiv: 0908.2904.
@Frank Harrell ha trabajado mucho en esta cuestión. No sé de referencias específicas.
Pero prefiero ver las dos técnicas como para diferentes propósitos. La validación cruzada es una buena herramienta para decidir sobre el modelo: le ayuda a evitar engañarse a sí mismo al pensar que tiene un buen modelo cuando, de hecho, está sobreajustando.
Cuando su modelo está arreglado, usar el bootstrap tiene más sentido (al menos para mí).
Hay una introducción a estos conceptos (más pruebas de permutación) usando R en http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
fuente
Tengo entendido que el bootstrapping es una forma de cuantificar la incertidumbre en su modelo, mientras que la validación cruzada se usa para la selección del modelo y para medir la precisión predictiva.
fuente
Una diferencia es que la validación cruzada, como jackknife, utiliza todos sus puntos de datos, mientras que el arranque, que remuestrea sus datos al azar, puede no alcanzar todos los puntos.
Puede arrancar todo el tiempo que desee, lo que significa una muestra más grande, que debería ayudar con muestras más pequeñas.
La media de validación cruzada o jackknife será la misma que la media de la muestra, mientras que la media de arranque es muy poco probable que sea la misma que la media de la muestra.
Como la validación cruzada y la navaja pesan todos los puntos de muestra de la misma manera, deben tener un intervalo de confianza menor (aunque posiblemente incorrecto) que el bootstrap.
fuente
Estas son dos técnicas de remuestreo:
En la validación cruzada, dividimos los datos aleatoriamente en kfold y ayuda a sobreajustar, pero este enfoque tiene su inconveniente. Como usa muestras aleatorias, alguna muestra produce un error mayor. Para minimizar el CV tiene técnicas pero no es tan poderoso con problemas de clasificación. Bootstrap ayuda en esto, mejora el error de su propia prueba de muestra ... para más detalles, consulte ...
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf
fuente