Cuando intenta ajustar modelos a un gran conjunto de datos, el consejo común es dividir los datos en tres partes: el conjunto de datos de capacitación, validación y prueba.
Esto se debe a que los modelos generalmente tienen tres "niveles" de parámetros: el primer "parámetro" es la clase de modelo (por ejemplo, SVM, red neuronal, bosque aleatorio), el segundo conjunto de parámetros son los parámetros de "regularización" o "hiperparámetros" ( por ejemplo, coeficiente de penalización de lazo, elección del núcleo, estructura de la red neuronal) y el tercer conjunto son los que generalmente se consideran los "parámetros" (por ejemplo, coeficientes para las covariables).
Dada una clase de modelo y una selección de hiperparámetros, uno selecciona los parámetros eligiendo los parámetros que minimizan el error en el conjunto de entrenamiento. Dada una clase de modelo, uno ajusta los hiperparámetros al minimizar el error en el conjunto de validación. Uno selecciona la clase de modelo por rendimiento en el conjunto de prueba.
Pero, ¿por qué no más particiones? A menudo, uno puede dividir los hiperparámetros en dos grupos, y usar una "validación 1" para el primero y "validación 2" para el segundo. O incluso se podría tratar el tamaño de los datos de entrenamiento / datos de validación divididos como un hiperparámetro para ajustar.
¿Es esto ya una práctica común en algunas aplicaciones? ¿Existe algún trabajo teórico sobre la partición óptima de datos?
fuente
Esta es una pregunta interesante, y descubrí que es útil con la respuesta de @Wayne.
Según tengo entendido, dividir el conjunto de datos en una partición diferente depende del propósito del autor y del requisito del modelo en la aplicación del mundo real.
Normalmente tenemos dos conjuntos de datos: entrenamiento y pruebas. El entrenamiento se usa para encontrar los parámetros de los modelos, o para ajustarlos. La prueba se utiliza para evaluar el rendimiento del modelo en datos no vistos (o datos del mundo real).
Si solo hacemos un paso en la capacitación, es obvio que hay una capacitación y un proceso de prueba (o validación).
Sin embargo, de esta manera, puede plantear el problema de sobreajuste cuando el modelo se entrena con un conjunto de datos, una vez. Esto puede conducir a la inestabilidad del modelo en el problema del mundo real. Una forma de resolver este problema es validar de forma cruzada (CV) el modelo en el conjunto de datos de entrenamiento. Eso significa que dividimos el conjunto de datos de entrenamiento en diferentes pliegues, mantenemos un pliegue para probar el modelo que está entrenado con otros pliegues. El ganador es ahora el que da la pérdida mínima (en función de nuestra propia función objetivo) en todo el proceso de CV. Al hacer esto, podemos asegurarnos de minimizar la posibilidad de un ajuste excesivo en el proceso de entrenamiento y seleccionar al ganador adecuado. El conjunto de prueba se utiliza nuevamente para evaluar al ganador en los datos invisibles.
fuente