¿Es la validación cruzada un sustituto adecuado para el conjunto de validación?

27

En la clasificación de texto, tengo un conjunto de entrenamiento con aproximadamente 800 muestras y un conjunto de prueba con aproximadamente 150 muestras. El conjunto de prueba nunca se ha usado, y está esperando ser usado hasta el final.

Estoy usando todo el conjunto de entrenamiento de 800 muestras, con validación cruzada de 10 veces al ajustar y ajustar clasificadores y características. Esto significa que no tengo un conjunto de validación separado, pero cada vez que se agota el 10 veces, se selecciona automáticamente un conjunto de validación.

Una vez que esté satisfecho con todo y desee ingresar a la etapa final de evaluación, entrenaré a mis clasificadores en las 800 muestras completas. Y pruebe en el conjunto de prueba de 150 muestras.

¿Entiendo que el uso de la validación cruzada en la clasificación de texto es correcto? ¿Es válida esta práctica?

Otra pregunta sobre la validación cruzada es:

en lugar de 10 veces, también intenté dejar uno como indicador general de rendimiento. Debido a que omitir uno, no es posible tener información sobre f1 / precisión / recuperación, me pregunto cuál es la relación entre la precisión de omisión y las métricas de 10 veces.

Cualquier idea sería muy apreciada.


Editar:

Esta es una muy buena introducción a la validación cruzada. También se refiere a otros trabajos de investigación.

Escama
fuente
3
Los estimadores de dejar uno fuera son imparciales, mientras que la validación cruzada 10 veces tenderá a darle un sesgo (hacia errores más bajos). Sin embargo, la imparcialidad tiene el precio de una gran variación.
blubb
@ Simon, creo que depende de la complejidad del problema. ¿No es así?
Biostat
@blubb: LOO en ciertas situaciones puede tener un gran sesgo pesimista. La variación de LOO y una sola ejecución de CV 10 veces son generalmente muy similares. El sesgo optimista (estimaciones de error demasiado bajas) aquí no proviene de la elección del remuestreo, sino del hecho de que la validación cruzada ya se utiliza para la optimización basada en datos. Después de eso, se necesita otra validación independiente . Eso también puede ser un ciclo "externo" de validación cruzada (¡sin sesgo optimista!)
cbeleites apoya a Monica el

Respuestas:

15

De hecho, ha descrito correctamente la forma de trabajar con validación cruzada. De hecho, tiene "suerte" de tener un conjunto de validación razonable al final, porque a menudo, la validación cruzada se utiliza para optimizar un modelo, pero no se realiza una validación "real".

Como dijo @Simon Stelling en su comentario, la validación cruzada conducirá a errores estimados más bajos (lo cual tiene sentido porque está reutilizando constantemente los datos), pero afortunadamente este es el caso para todos los modelos, por lo que, salvo la catástrofe (es decir, los errores solo se reducen ligeramente para un modelo "malo", y más para el modelo "bueno"), la selección del modelo que se desempeña mejor en un criterio de validación cruzada, por lo general, también será el mejor "real".

Un método que a veces se usa para corregir algo los errores más bajos, especialmente si está buscando modelos parsimoneos, es seleccionar el modelo más pequeño / método más simple para el cual el error con validación cruzada está dentro de una SD del óptimo (con validación cruzada). Como validación cruzada en sí misma, esta es una heurística, por lo que debe usarse con cuidado (si es una opción: haga un diagrama de sus errores en relación con sus parámetros de ajuste: esto le dará una idea de si tiene resultados aceptables)

Dado el sesgo descendente de los errores, es importante no publicar los errores u otras medidas de rendimiento de la validación cruzada sin mencionar que estos provienen de la validación cruzada (aunque, a decir verdad, he visto demasiadas publicaciones que no mencionan que el La medida de rendimiento se obtuvo al verificar el rendimiento en el conjunto de datos original, por lo que mencionar la validación cruzada realmente hace que sus resultados valgan más ). Para usted, esto no será un problema, ya que tiene un conjunto de validación.

Una advertencia final: si el ajuste de su modelo resulta en algunos competidores cercanos, es una buena idea mirar sus rendimientos en su conjunto de validación después, pero no base su selección de modelo final en eso: puede utilizar esto para calmar su conciencia, pero su modelo "final" debe haber sido elegido antes de mirar el conjunto de validación.

Escribe tu segunda pregunta: creo que Simon te ha dado todas las respuestas que necesitas en su comentario, pero para completar la imagen: con tanta frecuencia, es la compensación de sesgo-varianza lo que entra en juego. Si sabe que, en promedio, alcanzará el resultado correcto (imparcialidad), el precio generalmente es que cada uno de sus cálculos individuales puede estar bastante lejos de él (alta varianza). En los viejos tiempos, la imparcialidad era el nec plus ultra, en los días actuales, uno ha aceptado a veces un sesgo (pequeño) (por lo que ni siquiera sabe que el promedio de sus cálculos dará como resultado el resultado correcto), si da como resultado una menor varianza. La experiencia ha demostrado que el equilibrio es aceptable con una validación cruzada de 10 veces. Para usted, el sesgo solo sería un problema para la optimización de su modelo, ya que luego puede estimar el criterio (imparcialmente) en el conjunto de validación. Como tal, hay pocas razones para no usar la validación cruzada.

Nick Sabbe
fuente
"pero su modelo" final "debe haber sido elegido antes de mirar el conjunto de validación". Agradable.
Mooncrater