¿Cómo se llama a esta estrategia dinámica de selección de tamaño de muestra?

Imagine que desea evaluar la compresibilidad de un documento grande muy rápido. Podrías elegir aleatoriamente una subsecuencia, tratar de comprimirla. Esto puede servir como una predicción de la compresibilidad general del documento. Pero, ¿qué tan grande debe ser tu muestra?

Hemos ideado la siguiente estrategia:

Elija un tamaño de muestra arbitrario (pequeño). Mide la compresibilidad.
Luego, duplique el tamaño de la muestra y mida la compresibilidad nuevamente. Si hay pocos cambios (digamos menos del 10%), concluya que ha determinado de manera confiable la compresibilidad del documento. De lo contrario, vuelva a duplicar el tamaño de la muestra, y así sucesivamente.

Estamos bastante seguros de que esta no es una estrategia nueva, y nos preguntamos si está relacionada con alguna estrategia conocida utilizada por los estadísticos.

("Compresión" aquí es solo un ejemplo. Básicamente, estamos interesados en una métrica que no tiene buenas propiedades matemáticas conocidas, por lo que no es posible determinar analíticamente cuál podría ser un buen tamaño de muestra. No tenemos más remedio que caer volver a tales heurísticas.)

sampling model-selection sample-size Daniel Lemire
fuente

Respuestas:

Esto se ha llamado 'Muestreo progresivo', por ejemplo, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.86.9168&rep=rep1&type=pdf

CDX
fuente

La referencia dada por CDX es: Foster Provost, David Jensen y Tim Oates. 1999. Muestreo progresivo eficiente. En Actas de la quinta conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (KDD '99). ACM, Nueva York, NY, EE. UU., 23-32.

Daniel Lemire