Tengo algunos datos y quiero construir un modelo (digamos un modelo de regresión lineal) a partir de estos datos. En el siguiente paso, quiero aplicar la validación cruzada Leave-One-Out (LOOCV) en el modelo, así que vea qué tan bien funciona.
Si entendí LOOCV correctamente, construyo un nuevo modelo para cada una de mis muestras (el conjunto de prueba) usando cada muestra excepto esta muestra (el conjunto de entrenamiento). Luego uso el modelo para predecir el conjunto de pruebas y calcular los errores .
En el siguiente paso, agrego todos los errores generados usando una función elegida, por ejemplo error cuadrático medio. Puedo usar estos valores para juzgar la calidad (o bondad de ajuste) del modelo.
Pregunta: ¿Qué modelo es el modelo para el que se aplican estos valores de calidad, entonces qué modelo debo elegir si considero que las métricas generadas por LOOCV son apropiadas para mi caso? LOOCV examinó modelos diferentes (donde es el tamaño de la muestra); ¿Cuál es el modelo que debo elegir?
- ¿Es el modelo que utiliza todas las muestras? ¡Este modelo nunca se calculó durante el proceso LOOCV!
- ¿Es el modelo que tiene el menor error?
fuente
Respuestas:
Es mejor pensar en la validación cruzada como una forma de estimar el rendimiento de generalización de los modelos generados por un procedimiento particular, en lugar del modelo en sí. La validación cruzada Leave-one-out es esencialmente una estimación del rendimiento de generalización de un modelo entrenado en muestras de datos, que generalmente es una estimación ligeramente pesimista del rendimiento de un modelo entrenado en muestras.n - 1 norte
En lugar de elegir un modelo, lo que hay que hacer es ajustar el modelo a todos los datos y usar LOO-CV para proporcionar una estimación ligeramente conservadora del rendimiento de ese modelo.
Sin embargo, tenga en cuenta que LOOCV tiene una alta varianza (el valor que obtendrá varía mucho si utiliza una muestra aleatoria de datos diferente), lo que a menudo lo convierte en una mala elección del estimador para la evaluación del rendimiento, a pesar de que es aproximadamente imparcial. Lo uso todo el tiempo para la selección del modelo, pero en realidad solo porque es barato (casi gratis para los modelos de kernel en los que estoy trabajando).
fuente