Uso indebido de validación cruzada (informe de rendimiento para el mejor valor de hiperparámetro)

31

Recientemente me encontré con un artículo que propone usar un clasificador k-NN en un conjunto de datos específico. Los autores utilizaron todas las muestras de datos disponibles para realizar la validación cruzada de k veces para diferentes valores de k e informar los resultados de la validación cruzada de la mejor configuración de hiperparámetro.

Que yo sepa, este resultado está sesgado, y deberían haber retenido un conjunto de pruebas separado para obtener una estimación de precisión en las muestras no utilizadas para realizar la optimización de hiperparámetros.

Estoy en lo cierto? ¿Puede proporcionar algunas referencias (preferiblemente trabajos de investigación) que describan este mal uso de la validación cruzada?

Daniel López
fuente
3
Tenga en cuenta que en lugar de un conjunto de pruebas separado, se puede usar la llamada validación cruzada anidada . Si busca este término en este sitio, encontrará muchas discusiones. Busque en particular las respuestas de @DikranMarsupial, uno de los autores del segundo artículo citado en la respuesta aceptada.
ameba dice Reinstate Monica

Respuestas:

30

Sí, hay problemas al informar solo los resultados de k-fold CV. Podría usar, por ejemplo, las siguientes tres publicaciones para su propósito (aunque hay más por ahí, por supuesto) para dirigir a las personas hacia la dirección correcta:

Personalmente, me gustan porque tratan de exponer los problemas más en inglés simple que en matemáticas.

geekoverdose
fuente
2
Más precisamente, el problema no es informar resultados de validación cruzada, sino informar estimaciones de rendimiento que han sido parte del proceso de selección / optimización.
cbeleites apoya a Monica el
1
También tenga en cuenta que el documento de Bengio & Grandvalet es algo menos relevante si el problema aquí es el rendimiento de un modelo específico entrenado en un conjunto de datos en particular: discuten el rendimiento para el mismo algoritmo de entrenamiento aplicado a nuevos conjuntos de datos de la misma población (que necesita incluir la varianza entre diferentes conjuntos de datos del mismo tamaño muestreados de la misma fuente, lo que no es un problema si estamos hablando del rendimiento de predicción de un modelo entrenado en un conjunto de datos específico).
cbeleites apoya a Monica el
1
@cbeleites Correctamente detectado: en mi primer borrador de la respuesta elegí accidentalmente la tercera referencia en lugar de la segunda, pero luego no quise eliminar ninguna información de la respuesta ya aceptada, por lo que agregué la segunda en entre (ver versiones de respuesta). Sin embargo, creo que la pregunta se debió principalmente al error informado, y esos documentos señalan algunas de las cosas que uno puede hacer mal con CV a este respecto muy bien en mi humilde opinión.
geekoverdose