Recientemente me encontré con un artículo que propone usar un clasificador k-NN en un conjunto de datos específico. Los autores utilizaron todas las muestras de datos disponibles para realizar la validación cruzada de k veces para diferentes valores de k e informar los resultados de la validación cruzada de la mejor configuración de hiperparámetro.
Que yo sepa, este resultado está sesgado, y deberían haber retenido un conjunto de pruebas separado para obtener una estimación de precisión en las muestras no utilizadas para realizar la optimización de hiperparámetros.
Estoy en lo cierto? ¿Puede proporcionar algunas referencias (preferiblemente trabajos de investigación) que describan este mal uso de la validación cruzada?
cross-validation
references
model-selection
model-evaluation
Daniel López
fuente
fuente
Respuestas:
Sí, hay problemas al informar solo los resultados de k-fold CV. Podría usar, por ejemplo, las siguientes tres publicaciones para su propósito (aunque hay más por ahí, por supuesto) para dirigir a las personas hacia la dirección correcta:
Varma y Simon (2006). "Sesgo en la estimación de errores cuando se utiliza la validación cruzada para la selección del modelo". BMC Bioinformática , 7: 91
Cawley y Talbot (2010). "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento". Journal of Machine Learning Research , 11: 2079-2107
Personalmente, me gustan porque tratan de exponer los problemas más en inglés simple que en matemáticas.
fuente