Trabajo en una gran cantidad de modelos estadísticos, como Hidden Markov Models y Gaussian Mixture Models. Veo que entrenar buenos modelos en cada uno de estos casos requiere una gran cantidad de datos (> 20000 oraciones para HMM) que se toman de entornos similares como el uso final. Mi pregunta es:
- ¿Existe un concepto de datos de entrenamiento "suficientes" en la literatura? ¿Cuántos datos de entrenamiento son "suficientemente buenos"?
- ¿Cómo puedo calcular cuántas oraciones se necesitan para entrenar modelos "buenos" (que dan una buena precisión de reconocimiento (> 80%))?
- ¿Cómo sé si un modelo ha sido entrenado adecuadamente? ¿Los coeficientes en el modelo comenzarán a exhibir fluctuaciones aleatorias? Si es así, ¿cómo distingo las fluctuaciones aleatorias y los cambios reales debido a la actualización del modelo?
No dude en volver a etiquetar esta pregunta en caso de que necesite más etiquetas.