¿Es suficiente la validación cruzada para evitar el sobreajuste?

17

Si tengo datos y ejecuto una clasificación (digamos bosque aleatorio en estos datos) con validación cruzada (digamos 5 veces), ¿podría concluir que no hay un ajuste excesivo en mi método?

mamatv
fuente

Respuestas:

20

De ningún modo. Sin embargo, la validación cruzada lo ayuda a evaluar en qué medida su método se sobreajusta.

Por ejemplo, si los datos de entrenamiento R-cuadrado de una regresión son 0.50 y el R-cuadrado validado de forma cruzada es 0.48, casi no tiene sobreajuste y se siente bien. Por otro lado, si el R-cuadrado validado cruzado es solo 0.3 aquí, entonces una parte considerable del rendimiento de su modelo se debe al sobreajuste y no a las relaciones verdaderas. En tal caso, puede aceptar un rendimiento más bajo o probar diferentes estrategias de modelado con menos sobreajuste.

Michael M
fuente
8
Creo que esta respuesta es correcta en espíritu, pero no estoy de acuerdo con la caracterización de sobreajuste en el segundo párrafo. No creo que el ajuste excesivo ocurra cuando el error del tren - error de prueba> algún límite, en cambio, caracterizaría el ajuste excesivo como una situación en la que aumentar la complejidad del modelo tiende a aumentar el error de retención. Exigir que su tren y los errores de prueba sean comparables a menudo dará como resultado modelos muy poco adecuados .
Matthew Drury
7

La validación cruzada es una técnica buena, pero no perfecta, para minimizar el ajuste excesivo.

¡La validación cruzada no funcionará bien con los datos externos si los datos que tiene no son representativos de los datos que intentará predecir!

Aquí hay dos situaciones concretas cuando la validación cruzada tiene fallas:

  • Está utilizando el pasado para predecir el futuro: a menudo es una gran suposición suponer que las observaciones pasadas vendrán de la misma población con la misma distribución que las observaciones futuras. La validación cruzada en un conjunto de datos extraído del pasado no protegerá contra esto.
  • Hay un sesgo en los datos que recopila: los datos que observa son sistemáticamente diferentes de los datos que no observó. Por ejemplo, sabemos sobre el sesgo de los encuestados en aquellos que optaron por realizar una encuesta.
TrynnaDoStat
fuente
3
El hecho de que su conjunto de datos no sea una representación deficiente de la población real generalmente se considera un problema separado de sobreajuste. Por supuesto, es correcto que la validación cruzada no los aborde.
Cliff AB