Sé que para acceder al rendimiento del clasificador tengo que dividir los datos en un conjunto de entrenamiento / prueba. Pero leyendo esto :
Al evaluar diferentes configuraciones ("hiperparámetros") para estimadores, como la configuración C que debe configurarse manualmente para un SVM, todavía existe el riesgo de sobreajuste en el conjunto de prueba porque los parámetros pueden ajustarse hasta que el estimador funcione de manera óptima. De esta manera, el conocimiento sobre el conjunto de pruebas puede "filtrarse" en el modelo y las métricas de evaluación ya no informan sobre el rendimiento de generalización. Para resolver este problema, otra parte del conjunto de datos se puede presentar como el llamado "conjunto de validación": el entrenamiento continúa en el conjunto de entrenamiento, después de lo cual se realiza la evaluación en el conjunto de validación y cuando el experimento parece ser exitoso , la evaluación final se puede hacer en el conjunto de prueba.
Veo que se introduce otro (tercer) conjunto de validación que se justifica por el sobreajuste del conjunto de prueba durante el ajuste de hiperparámetros.
El problema es que no puedo entender cómo puede aparecer este sobreajuste y, por lo tanto, no puedo entender la justificación del tercer conjunto.
fuente
Respuestas:
Aunque está entrenando modelos exclusivamente con los datos de entrenamiento, está optimizando hiperparámetros (por ejemplo, para un SVM) según el conjunto de pruebas. Como tal, su estimación de rendimiento puede ser optimista, porque esencialmente está informando los mejores resultados. Como algunos en este sitio ya han mencionado, la optimización es la raíz de todo mal en las estadísticas .C
Las estimaciones de rendimiento siempre deben hacerse con datos completamente independientes. Si está optimizando algún aspecto basado en datos de prueba, entonces sus datos de prueba ya no son independientes y necesitaría un conjunto de validación.
Otra forma de lidiar con esto es a través de la validación cruzada anidada , que consiste en dos procedimientos de validación cruzada entre sí. La validación cruzada interna se usa en la sintonización (para estimar el rendimiento de un conjunto dado de hiperparámetros, que está optimizado) y la validación cruzada externa estima el rendimiento de generalización de toda la tubería de aprendizaje automático (es decir, optimizar hiperparámetros + entrenar el modelo final )
fuente
Creo que es más fácil pensar en las cosas de esta manera. Hay dos cosas para las que se usa la validación cruzada: ajustar los hiperparámetros de un modelo / algoritmo y evaluar el rendimiento de un modelo / algoritmo.
Considere el primer uso como parte del entrenamiento real del algoritmo. Por ejemplo, la validación cruzada para determinar la fuerza de regularización de un GLM es parte del establecimiento del resultado final del GLM. Este uso generalmente se denomina validación cruzada interna . Debido a que todavía se están configurando (hiper) parámetros, la pérdida del conjunto de ajuste no es una gran medida del rendimiento real de los algoritmos.
El segundo uso de la validación cruzada es usar datos que se mantuvieron fuera del proceso completo que produjo el modelo, para probar su poder predictivo. Este proceso se llama validación cruzada externa .
Tenga en cuenta que la validación interna puede haber sido parte del proceso que produjo el modelo, por lo que en muchos casos es necesaria la validación cruzada interna y externa.
fuente
Durante la construcción del modelo, entrena a sus modelos en una muestra de entrenamiento . Tenga en cuenta que puede entrenar diferentes modelos (es decir, diferentes técnicas como SVM, LDA, Random Forest, ... o la misma técnica con diferentes valores de los parámetros de ajuste, o una mezcla).
Entre todos los modelos diferentes que entrenó, debe elegir uno y, por lo tanto, usar la muestra de validación para encontrar el que tenga el menor error en la muestra de prueba.
Para este modelo 'final' todavía tenemos que estimar el error y, por lo tanto, utilizamos la muestra de prueba .
fuente
La validación cruzada no supera por completo el problema de ajuste excesivo en la selección del modelo, solo lo reduce. El error de validación cruzada depende del conjunto de datos que use. Cuanto más pequeño sea el conjunto de datos, mayor será el error de validación cruzada.
Además, si tiene altos grados de libertad en la selección del modelo, existe el peligro de que el modelo funcione mal, ya que el criterio de validación cruzada se sobreajusta.
Entonces, cuando los datos se dividen en 2 conjuntos, también conocidos como los conjuntos de entrenamiento y prueba, la división se realiza de forma estática. Por lo tanto, existe la posibilidad de sobreajustar el conjunto de entrenamiento. Sin embargo, los conjuntos de validación cruzada se crean a través de diferentes métodos , como la validación cruzada k-fold, la validación Cross-out-one-cross (LOOCV), etc., que ayuda a garantizar que se elimine la recompensa de ajuste exacto de la división de 2 conjuntos y así se reduce la posibilidad de un ajuste excesivo.
Estos son algunos recursos que lo ayudarán a comprender mejor.
Por lo tanto, la validación cruzada lo ayudaría cuando tenga un conjunto de datos más grande, en lugar de uno más pequeño.
fuente