Suponga que tengo un tamaño de muestra pequeño, por ejemplo, N = 100 y dos clases. ¿Cómo debo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para el aprendizaje automático?
Yo elegiría intuitivamente
- Tamaño del set de entrenamiento como 50
- Conjunto de validación cruzada tamaño 25, y
- Tamaño de prueba como 25.
Pero probablemente esto tiene más o menos sentido. ¿Cómo debería realmente decidir estos valores? ¿Puedo probar diferentes opciones (aunque supongo que no es tan preferible ... una mayor posibilidad de sobreaprendizaje)?
¿Qué pasa si tuviera más de dos clases?
Respuestas:
Seguramente encontró la pregunta muy similar: ¿ Elección de K en la validación cruzada de K-fold ?
(Incluyendo el enlace al trabajo de Ron Kohavi)
Si el tamaño de la muestra ya es pequeño, recomiendo evitar cualquier optimización basada en datos. En cambio, limítese a modelos en los que pueda corregir hiperparámetros según su conocimiento sobre el modelo y la aplicación / datos. Esto hace que uno de los niveles de validación / prueba sea innecesario, dejando más de sus pocos casos para el entrenamiento de los modelos sustitutos en la validación cruzada restante.k recomendado en general.
En mi humilde opinión, de todos modos no puede permitirse modelos muy elegantes con ese tamaño de muestra. Y casi con certeza no puede permitirse el lujo de hacer comparaciones de modelos significativas (seguro que no, a menos que use reglas de puntuación adecuadas y técnicas de análisis emparejado).
Esta decisión es mucho más importante que la elección precisa de (por ejemplo, 5 veces frente a 10 veces), con la importante excepción de que dejar uno fuera no es
Curiosamente, con estos problemas de clasificación de tamaño de muestra muy pequeño, la validación es a menudo más difícil (en términos de necesidades de tamaño de muestra) en comparación con la capacitación de un modelo decente. Si necesita literatura sobre esto, consulte, por ejemplo, nuestro documento sobre planificación del tamaño de la muestra:
Beleites, C. y Neugebauer, U. y Bocklitz, T. y Krafft, C. y Popp, J .: Planificación del tamaño de la muestra para modelos de clasificación. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceptado en arXiv: 1211.1323
Otro punto importante es hacer un buen uso de la posibilidad de repetir / repetir la validación cruzada (que es una de las razones contra LOO): esto le permite medir la estabilidad de las predicciones contra perturbaciones (es decir, pocos casos diferentes) del entrenamiento datos.
Literatura:
DOI: 10.1007 / s00216-007-1818-6
DOI: 10.1016 / j.chemolab.2009.07.016
Si decide una sola ejecución en un conjunto de prueba de retención (sin iteraciones / repeticiones)
fuente
Dado que el tamaño de su muestra es pequeño, una buena práctica sería omitir la sección de validación cruzada y usar una relación de 60 - 40 o 70 - 30.
Como puede ver en la sección 2.8 de Introducción a la clementina y la minería de datos y también en MSDN Library - Minería de datos - Conjuntos de capacitación y pruebas , es común una relación de 70-30. De acuerdo con las conferencias de Andrew Ng Machine Learning, se recomienda una proporción de 60 - 20 - 20.
Espero haber sido útil. Atentamente.
fuente