El muestreo con reemplazo tiene dos ventajas sobre el muestreo sin reemplazo como lo veo:
1) No necesita preocuparse por la corrección de población finita.
2) Existe la posibilidad de que los elementos de la población se extraigan varias veces, luego puede reciclar las mediciones y ahorrar tiempo.
Por supuesto, desde un punto de vista académico, uno tiene que investigar ambos métodos. Pero desde un punto de vista práctico, no veo por qué uno consideraría tomar muestras sin reemplazo dadas las ventajas de la sustitución.
Pero soy un principiante en estadística, por lo que podría haber muchas buenas razones por las que sin reemplazo podría ser la mejor opción, al menos para casos de uso específicos. Por favor, desconciertame!
sampling
finite-population
Raffael
fuente
fuente
Respuestas:
Ampliando la respuesta de @Scortchi. . .
Suponga que la población tiene 5 miembros y usted tiene un presupuesto para muestrear 5 individuos. Usted está interesado en la media poblacional de una variable X, una característica de los individuos en esta población. Puede hacerlo a su manera y tomar muestras al azar con reemplazo. La varianza de la media muestral será V (X) / 5.
Por otro lado, suponga que toma una muestra de las cinco personas sin reemplazo. Entonces, la varianza de la media muestral es 0. Usted ha muestreado la población completa, cada individuo exactamente una vez, por lo que no hay distinción entre "media muestral" y "media poblacional". Ellos son la misma cosa.
En el mundo real, debe saltar de alegría cada vez que tiene que hacer la corrección de población finita porque (redoble de batería ...) hace que la varianza de su estimador disminuya sin tener que recopilar más datos. Casi nada hace esto. Es como magia: buena magia.
Decir exactamente lo mismo en matemáticas (preste atención a <, y suponga que el tamaño de la muestra es mayor que 1):
Corrección <1 significa que aplicar la corrección hace que la varianza baje, porque aplica la corrección multiplicándola contra la varianza. Varianza ABAJO == bueno.
Moviéndose en la dirección opuesta, completamente lejos de las matemáticas, piense en lo que está preguntando. Si desea aprender sobre la población y puede muestrear a 5 personas de ella, ¿parece probable que aprenda más al tomar la oportunidad de probar al mismo tipo 5 veces o parece más probable que aprenda más al asegurar que muestras 5 tipos diferentes?
El caso del mundo real es casi lo contrario de lo que estás diciendo. Casi nunca muestras con reemplazo, solo cuando haces cosas especiales como bootstrapping. En ese caso, en realidad estás tratando de arruinar el estimador y darle una variación "demasiado grande".
fuente
La precisión de las estimaciones suele ser mayor para el muestreo sin reemplazo en comparación con el muestreo con reemplazo.
Por ejemplo, es posible seleccionar solo un elemento veces cuando el muestreo se realiza con reemplazo en un caso extremo. Eso podría conducir a una estimación muy imprecisa del parámetro de interés de la población. Tal situación no es posible bajo muestreo sin reemplazo. Por lo tanto, la varianza suele ser menor para las estimaciones realizadas a partir del muestreo sin reemplazo.n
fuente
No creo que las respuestas aquí sean totalmente adecuadas, y parecen argumentar a favor del caso límite en el que su cantidad de datos es muy baja.
Con una muestra suficientemente grande, esto no es una preocupación en absoluto, especialmente con muchos resamples de arranque (~ 1000). Si he muestreado de la distribución verdadera un conjunto de datos de tamaño 10,000, y vuelvo a muestrear con reemplazo 1,000 veces, entonces la varianza que obtengo (a diferencia de la varianza que obtendría al no reemplazarla) es totalmente insignificante.
Yo diría que la respuesta más precisa es esta: el muestreo nuevo sin reemplazo es esencial cuando se estima la confianza de una estadística de segundo orden . Por ejemplo, si estoy usando un bootstrap para estimar la incertidumbre que tengo en una medición de dispersión. Dibujar con reemplazo para tal cantidad puede sesgar artificialmente las dispersiones recuperadas bajas.
Para un ejemplo concreto con datos reales, si está preparado, consulte este documento https://arxiv.org/abs/1612.02827
discute brevemente su pregunta en la página 10
fuente
Tengo un resultado que trata sin reemplazo prácticamente como con reemplazo y elimina todas las dificultades. Tenga en cuenta que con los cálculos de reemplazo son mucho más fáciles. Entonces, si una probabilidad involucra p y q, probabilidades de éxito y fracaso, en caso de reemplazo, la probabilidad correspondiente en caso sin reemplazo se obtiene simplemente con el reemplazo de p ^ aq ^ b con (Nab) C (Ra) para cualquier a y b, donde N, R son el número total de bolas y el número de bolas blancas. Recuerde que p se trata como R / N.
K.Balasubramanian
fuente