¿Existe un concepto de datos "suficientes" para la formación de modelos estadísticos?

10

Trabajo en una gran cantidad de modelos estadísticos, como Hidden Markov Models y Gaussian Mixture Models. Veo que entrenar buenos modelos en cada uno de estos casos requiere una gran cantidad de datos (> 20000 oraciones para HMM) que se toman de entornos similares como el uso final. Mi pregunta es:

  1. ¿Existe un concepto de datos de entrenamiento "suficientes" en la literatura? ¿Cuántos datos de entrenamiento son "suficientemente buenos"?
  2. ¿Cómo puedo calcular cuántas oraciones se necesitan para entrenar modelos "buenos" (que dan una buena precisión de reconocimiento (> 80%))?
  3. ¿Cómo sé si un modelo ha sido entrenado adecuadamente? ¿Los coeficientes en el modelo comenzarán a exhibir fluctuaciones aleatorias? Si es así, ¿cómo distingo las fluctuaciones aleatorias y los cambios reales debido a la actualización del modelo?

No dude en volver a etiquetar esta pregunta en caso de que necesite más etiquetas.

Sriram
fuente

Respuestas:

10

Puede dividir su conjunto de datos en subconjuntos consecutivos con 10%, 20%, 30%, ..., 100% de sus datos y para cada subconjunto estimar la varianza de la precisión de su estimador utilizando la validación cruzada k-fold o bootstrapping. Si tiene datos "suficientes", el trazado de las variaciones debe mostrar una línea monotónica decreciente que debería alcanzar una meseta antes del 100%: agregar más datos no disminuye la variación de la precisión del estimador de ninguna manera significativa.

ogrisel
fuente
Tendré que intentar eso. Suena interesante. ¡Gracias!
Sriram