He estado leyendo sobre la validación de k-fold, y quiero asegurarme de que entiendo cómo funciona.
Sé que para el método de retención, los datos se dividen en tres conjuntos, y el conjunto de prueba solo se usa al final para evaluar el rendimiento del modelo, mientras que el conjunto de validación se usa para ajustar hiperparámetros, etc.
En el método k-fold, ¿todavía tenemos un conjunto de prueba para el final, y solo usamos los datos restantes para el entrenamiento y el ajuste de hiperparámetros, es decir, dividimos los datos restantes en k pliegues, y luego usamos la precisión promedio después del entrenamiento con cada pliegue (o cualquier métrica de rendimiento que elijamos para ajustar nuestros hiperparámetros)? ¿O no usamos un conjunto de pruebas por separado y simplemente dividimos todo el conjunto de datos en k pliegues (si este es el caso, supongo que solo consideramos que la precisión promedio en los k pliegues es nuestra precisión final)?
fuente
Respuestas:
Sí. Como regla general, el conjunto de prueba nunca debe usarse para cambiar su modelo (por ejemplo, sus hiperparámetros).
Sin embargo, la validación cruzada a veces se puede usar para fines distintos al ajuste de hiperparámetros, por ejemplo, determinar en qué medida la división tren / prueba impacta los resultados.
fuente
En general si. Básicamente estamos hablando de la compensación de sesgo-varianza. Si usa datos para construir su modelo (datos de capacitación y validación) e itera sobre diferentes hiperparámetros e intenta maximizar una métrica de rendimiento promedio, su modelo podría no ser tan bueno como se indica.
Sin embargo, especialmente en conjuntos de datos pequeños, la división adicional podría conducir a un conjunto de entrenamiento aún más pequeño y dar como resultado un mal modelo.
fuente
Idealmente, la validación (para la selección del modelo) y la prueba final no deben mezclarse. Sin embargo, si su valor k es alto, o es omitido, usar el resultado de la prueba para guiar su selección de modelo es menos dañino. En este escenario, si está escribiendo un artículo académico, no lo haga (a menos que se moleste en explicarlo), es decir, siempre tenga un conjunto de pruebas por separado. Si está construyendo un proyecto práctico, está bien hacerlo.
fuente