A medida que leo en el sitio, la mayoría de las respuestas sugieren que la validación cruzada debe hacerse en algoritmos de aprendizaje automático. Sin embargo, mientras leía el libro "Comprensión del aprendizaje automático", vi que hay un ejercicio que a veces es mejor no usar la validación cruzada. Estoy realmente confundido. ¿Cuándo el algoritmo de entrenamiento en todos los datos es mejor que la validación cruzada? ¿Sucede en conjuntos de datos reales?
Deje ser k clases de hipótesis. Supongamos que se le da IID la formación de ejemplos y que le gustaría aprender la clase . Considere dos enfoques alternativos:
Aprenda en los ejemplos usando la regla ERM
Divida los ejemplos m en un conjunto de entrenamiento de tamaño un conjunto de validación de tamaño , para algunos . Luego, aplique el enfoque de selección de modelo mediante validación. Es decir, primero entrene a cada clase en los ejemplos de entrenamiento usando la regla ERM con respecto a , y deje que sean las hipótesis resultantes . Segundo, aplique la regla ERM con respecto a la clase finita { } en los ejemplos de validación .
Describa escenarios en los que el primer método sea mejor que el segundo y viceversa.
Respuestas:
Mensajes para llevar a casa:
el ejercicio debe enseñarle que a veces (dependiendo de su campo: a menudo o incluso casi siempre) es mejor no hacer la optimización / ajuste / selección del modelo basado en datos.
También hay situaciones en las que la validación cruzada no es la mejor opción entre las diferentes opciones de validación , pero estas consideraciones no son relevantes en el contexto de su ejercicio aquí.
Desafortunadamente, el texto que cita cambia dos cosas entre el enfoque 1 y 2:
En mi humilde opinión, la validación cruzada y la optimización basada en datos son dos decisiones totalmente diferentes (y en gran medida independientes) al configurar su estrategia de modelado. La única conexión es que puede usar estimaciones de validación cruzada como objetivo funcional para su optimización. Pero existen otros objetivos funcionales listos para ser utilizados, y hay otros usos de las estimaciones de validación cruzada (lo más importante, puede usarlos para la verificación de su modelo, también conocido como validación o prueba)
Desafortunadamente, la terminología de aprendizaje automático es, en mi humilde opinión, un desastre que sugiere conexiones / causas / dependencias falsas aquí.
Cuando busca el enfoque 3 (validación cruzada no para la optimización sino para medir el rendimiento del modelo), encontrará que la validación cruzada de "decisión" frente al entrenamiento en todo el conjunto de datos es una falsa dicotomía en este contexto: cuando se usa la validación cruzada Para medir el rendimiento del clasificador, la figura de mérito de validación cruzada se utiliza como estimación para un modelo entrenado en todo el conjunto de datos. Es decir, el enfoque 3 incluye el enfoque 1.
Ahora, veamos la segunda decisión: la optimización del modelo basado en datos o no. Este es, en mi humilde opinión, el punto crucial aquí. Y sí, hay situaciones del mundo real en las que no es mejor optimizar el modelo basado en datos. La optimización del modelo basada en datos tiene un costo. Puede pensarlo de esta manera: la información en su conjunto de datos se usa para estimar no solo lap parámetros / coeficientes del modelo, pero lo que hace la optimización es estimar parámetros adicionales, los llamados hiperparámetros. Si describe el proceso de ajuste y optimización / ajuste del modelo como una búsqueda de los parámetros del modelo, entonces esta optimización de hiperparámetro significa que se considera un espacio de búsqueda mucho mayor. En otras palabras, en el enfoque 1 (y 3) restringe el espacio de búsqueda especificando esos hiperparámetros. Su conjunto de datos del mundo real puede ser lo suficientemente grande (contener suficiente información) para permitir el ajuste dentro de ese espacio de búsqueda restringido, pero no lo suficientemente grande como para fijar todos los parámetros suficientemente bien en el espacio de búsqueda más amplio de los enfoques 2 (y 4).
De hecho, en mi campo a menudo tengo que lidiar con conjuntos de datos demasiado pequeños para permitirme pensar en la optimización basada en datos. Entonces, ¿qué debo hacer? Utilizo mi conocimiento de dominio sobre los datos y los procesos de generación de datos para decidir qué modelo coincide bien con la naturaleza física de los datos y la aplicación. Y dentro de estos, todavía tengo que restringir la complejidad de mi modelo.
fuente