Haga cualquier pregunta a un estadístico y su respuesta será alguna forma de "depende".
Depende . Además del tipo de modelo (¡buen punto cbeleites!), ¿El número de puntos de ajuste de entrenamiento y el número de predictores? Si el modelo es para clasificación, un gran desequilibrio de clase me haría aumentar el número de repeticiones. Además, si estoy volviendo a muestrear un procedimiento de selección de características, me inclinaría hacia más muestras.
Para cualquier método de remuestreo utilizado en este contexto, recuerde que (a diferencia del bootstrapping clásico), solo necesita suficientes iteraciones para obtener una estimación "lo suficientemente precisa" de la media de la distribución. Eso es subjetivo pero cualquier respuesta será.
Siguiendo con la clasificación con dos clases por un segundo, suponga que espera / espera que la precisión del modelo sea de aproximadamente 0,80. Dado que el proceso de remuestreo muestra la estimación de precisión (por ejemplo p
), el error estándar sería sqrt[p*(1-p)]/sqrt(B)
dónde B
está el número de muestreos. Para B = 10
, el error estándar de la precisión es de aproximadamente 0,13 y con B = 100
él es de aproximadamente 0,04. Puede usar esa fórmula como una guía aproximada para este caso particular.
También considere que, en este ejemplo, la varianza de la precisión se maximiza cuanto más se acerque a 0,50, por lo que un modelo preciso debería necesitar menos repeticiones ya que el error estándar debería ser menor que los modelos que son estudiantes débiles.
HTH
Max