Si tengo datos y ejecuto una clasificación (digamos bosque aleatorio en estos datos) con validación cruzada (digamos 5 veces), ¿podría concluir que no hay un ajuste excesivo en mi método?
fuente
Si tengo datos y ejecuto una clasificación (digamos bosque aleatorio en estos datos) con validación cruzada (digamos 5 veces), ¿podría concluir que no hay un ajuste excesivo en mi método?
De ningún modo. Sin embargo, la validación cruzada lo ayuda a evaluar en qué medida su método se sobreajusta.
Por ejemplo, si los datos de entrenamiento R-cuadrado de una regresión son 0.50 y el R-cuadrado validado de forma cruzada es 0.48, casi no tiene sobreajuste y se siente bien. Por otro lado, si el R-cuadrado validado cruzado es solo 0.3 aquí, entonces una parte considerable del rendimiento de su modelo se debe al sobreajuste y no a las relaciones verdaderas. En tal caso, puede aceptar un rendimiento más bajo o probar diferentes estrategias de modelado con menos sobreajuste.
La validación cruzada es una técnica buena, pero no perfecta, para minimizar el ajuste excesivo.
¡La validación cruzada no funcionará bien con los datos externos si los datos que tiene no son representativos de los datos que intentará predecir!
Aquí hay dos situaciones concretas cuando la validación cruzada tiene fallas:
fuente
También puedo recomendar estos videos del curso de Stanford sobre aprendizaje estadístico. Estos videos profundizan bastante sobre cómo utilizar la valoración cruzada de manera efectiva.
Validación cruzada y Bootstrap (14:01)
Validación cruzada K-fold (13:33)
Validación cruzada: las formas correctas e incorrectas (10:07)
fuente