¿Cómo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para datos de tamaño de muestra pequeño?

10

Suponga que tengo un tamaño de muestra pequeño, por ejemplo, N = 100 y dos clases. ¿Cómo debo elegir la capacitación, la validación cruzada y los tamaños de los conjuntos de prueba para el aprendizaje automático?

Yo elegiría intuitivamente

  • Tamaño del set de entrenamiento como 50
  • Conjunto de validación cruzada tamaño 25, y
  • Tamaño de prueba como 25.

Pero probablemente esto tiene más o menos sentido. ¿Cómo debería realmente decidir estos valores? ¿Puedo probar diferentes opciones (aunque supongo que no es tan preferible ... una mayor posibilidad de sobreaprendizaje)?

¿Qué pasa si tuviera más de dos clases?

est
fuente
2
100 es demasiado pequeño para mí. Optaría por una estrategia de exclusión para la validación cruzada y la evaluación de pruebas.
Memming
No he visto ninguna literatura sobre esto (tamaños mínimos de muestra para la validación). No estoy seguro de por qué. Parece un tema importante.
Charles

Respuestas:

15
cbeleites descontentos con SX
fuente
+1 únicamente por el asesoramiento sobre la optimización de parámetros y la complejidad del modelo. Pero todos estos consejos son fantásticos.
charles
1

Dado que el tamaño de su muestra es pequeño, una buena práctica sería omitir la sección de validación cruzada y usar una relación de 60 - 40 o 70 - 30.

Como puede ver en la sección 2.8 de Introducción a la clementina y la minería de datos y también en MSDN Library - Minería de datos - Conjuntos de capacitación y pruebas , es común una relación de 70-30. De acuerdo con las conferencias de Andrew Ng Machine Learning, se recomienda una proporción de 60 - 20 - 20.

Espero haber sido útil. Atentamente.

mrdatamx
fuente