He leído muchos trabajos de investigación sobre clasificación de sentimientos y temas relacionados.
La mayoría de ellos utilizan validación cruzada 10 veces para entrenar y probar clasificadores. Eso significa que no se realiza ninguna prueba / validación por separado. ¿Porqué es eso?
¿Cuáles son las ventajas / desventajas de este enfoque, especialmente para aquellos que realizan investigaciones?
classification
cross-validation
usuario18075
fuente
fuente
Respuestas:
Esto no es un problema si el CV está anidado , es decir, todas las optimizaciones, selecciones de características y selecciones de modelos, ya sea que usen CV o no, están envueltas en un CV grande.
¿Cómo se compara esto con tener un conjunto de validación adicional? Si bien el conjunto de validación generalmente es solo una parte más o menos seleccionada al azar de todos los datos, es simplemente el equivalente de una iteración de CV. Para este fin, en realidad es un método peor porque puede ser fácilmente sesgado por (con suerte) un conjunto de validación seleccionado por suerte / desafortunadamente o elegido por cereza.
La única excepción a esto son las series temporales y otros datos donde el orden de los objetos es importante; pero requieren un tratamiento especial de cualquier manera.
fuente
La razón principal es que el estimador de validación cruzada k-fold tiene una varianza menor que un estimador de conjunto de retención único, lo que puede ser muy importante si la cantidad de datos disponibles es limitada. Si tiene un único conjunto de retención, donde el 90% de los datos se utilizan para el entrenamiento y el 10% para las pruebas, el conjunto de pruebas es muy pequeño, por lo que habrá una gran variación en la estimación del rendimiento para diferentes muestras de datos, o para diferentes particiones de los datos para formar conjuntos de entrenamiento y prueba. La validación de k-fold reduce esta variación promediando k diferentes particiones, por lo que la estimación del rendimiento es menos sensible a la partición de los datos. Puede ir aún más lejos mediante la validación cruzada repetida k-fold, donde la validación cruzada se realiza utilizando diferentes particiones de los datos para formar k subconjuntos,
Sin embargo, tenga en cuenta que todos los pasos del procedimiento de ajuste del modelo (selección del modelo, selección de características, etc.) deben realizarse de forma independiente en cada pliegue del procedimiento de validación cruzada, o la estimación del rendimiento resultante se sesgará de manera optimista.
fuente
[EDITADO a la luz del comentario]
Creo que hay un problema si usa los resultados de CV para seleccionar entre varios modelos.
CV le permite utilizar todo el conjunto de datos para entrenar y probar un modelo / método, al tiempo que puede tener una idea razonable de qué tan bien se generalizará. Pero si está comparando múltiples modelos, mi instinto es que la comparación del modelo utiliza el nivel adicional de aislamiento de prueba de tren que le brinda CV, por lo que el resultado final no será una estimación razonable de la precisión del modelo elegido.
Supongo que si crea varios modelos y elige uno en función de su CV, está siendo demasiado optimista sobre lo que ha encontrado. Se necesitaría otro conjunto de validación para ver qué tan bien generaliza el ganador.
fuente
En mi experiencia, la razón principal es que generalmente no tienes suficientes muestras.
En mi campo (clasificación de muestras biológicas / médicas), a veces un conjunto de prueba se mantiene separado, pero a menudo comprende solo unos pocos casos. En ese caso, los intervalos de confianza suelen ser demasiado amplios para ser de alguna utilidad.
Otra ventaja de la validación cruzada repetida / iterada o validación fuera de lugar es que usted construye un montón de modelos "sustitutos". Se supone que son iguales. Si no lo son, los modos son inestables. En realidad, puede medir esta inestabilidad (con respecto al intercambio de algunos casos de entrenamiento) comparando los modelos sustitutos en sí o las predicciones que hacen los diferentes modelos sustitutos para el mismo caso.
Este artículo de Esbensen & Geladi ofrece una buena discusión sobre algunas limitaciones de la validación cruzada.
Puede ocuparse de la mayoría de ellos, pero un punto importante que no puede abordarse mediante la validación de remuestreo es la deriva, que está relacionada con el punto de mbq:
Deriva significa que, por ejemplo, la respuesta de un instrumento / calibración real cambia lentamente con el tiempo. Por lo tanto, el error de generalización para casos desconocidos puede no ser el mismo que para casos futuros desconocidos . Llega a instrucciones como "rehacer la calibración diaria / semanal / ..." si encuentra una deriva durante la validación, pero esto necesita conjuntos de pruebas sistemáticamente adquiridos más tarde que los datos de entrenamiento.
(Podría hacer divisiones "especiales" que tengan en cuenta el tiempo de adquisición, si su experimento se planifica de manera acorde, pero generalmente esto no cubrirá tanto tiempo como desearía probar para detectar la deriva)
fuente