Tengo una pregunta sobre el proceso de validación cruzada. Estoy en medio de un curso de Machine Learning en Cursera. Uno de los temas es sobre la validación cruzada. Me resultó un poco difícil de seguir. Sé por qué necesitamos CV porque queremos que nuestros modelos funcionen bien en datos futuros (desconocidos) y que CV evite el sobreajuste. Sin embargo, el proceso en sí mismo es confuso.
Lo que he entendido es que divido los datos en 3 subconjuntos: capacitación, validación y prueba. Train and Validation es encontrar la complejidad óptima de un modelo. Lo que no entiendo es el tercer subconjunto. Entiendo que tomo una serie de características para el modelo, lo entreno y lo valido en el subconjunto de Validación y busco la función de costo mínimo cuando cambio la estructura. Cuando lo encontré, pruebo el modelo en el subconjunto de prueba. Si ya he encontrado la función de costo mínimo en el subconjunto de validación, ¿por qué necesitaría probarlo nuevamente en el subconjunto de prueba?
¿Podría alguien aclarar esto por mí?
Gracias
Respuestas:
fuente
Debido a un error aleatorio: por lo general, solo tiene un número finito de casos.
La optimización del rendimiento de la validación (prueba interna) significa que puede estar sobreajustando a ese conjunto de prueba interna. El conjunto de prueba interno contribuye a la estimación del modelo final y, por lo tanto, no es independiente del modelo.
Esto significa que debe tener otro conjunto de pruebas (externo) que sea independiente de todo el procedimiento de modelado (incluidos todos los procesos de optimización y preprocesamiento basado en datos o selección de modelos) si desea estimar las propiedades de generalización.
Le recomiendo que haga una simulación y compare las tres estimaciones de error diferentes que puede tener
mide la bondad de ajuste
En una simulación, también puede compararlos fácilmente con un conjunto de pruebas adecuado, grande y generado independientemente. Si la configuración es correcta, la prueba externa debe ser imparcial (wrt el modelo sustituto que evalúa, no wrt un modelo "final" construido en todo el conjunto de datos). La prueba interna generalmente está sesgada de manera optimista, y la restitución está aún más sesgada de manera optimista.
En mi campo, la prueba interna subestimaría fácilmente el error de generalización por un factor de 2 a 5 (mucho más para esquemas de optimización agresivos).
Nota: la nomenclatura de los conjuntos no es universal. En mi campo (química analítica), la validación generalmente significaría la prueba del desempeño del procedimiento final, por lo tanto, más lo que hace su conjunto de "prueba" que lo que hace su conjunto de "validación".
Por lo tanto, prefiero hablar de los conjuntos de prueba internos y externos, o del conjunto de prueba de optimización (= conjunto de prueba interno) y luego el conjunto de validación significaría el conjunto de prueba externo.
fuente
Al entrenar el modelo, uno debe seleccionar metaparámetros para el modelo (por ejemplo, parámetro de regularización) o incluso elegir entre varios modelos. En este caso, el subconjunto de validación se usa para elegir parámetros, pero el subconjunto de prueba para la estimación de predicción final.
fuente