¿Por qué considerar el muestreo sin reemplazo en una aplicación práctica?

12

El muestreo con reemplazo tiene dos ventajas sobre el muestreo sin reemplazo como lo veo:

1) No necesita preocuparse por la corrección de población finita.

2) Existe la posibilidad de que los elementos de la población se extraigan varias veces, luego puede reciclar las mediciones y ahorrar tiempo.

Por supuesto, desde un punto de vista académico, uno tiene que investigar ambos métodos. Pero desde un punto de vista práctico, no veo por qué uno consideraría tomar muestras sin reemplazo dadas las ventajas de la sustitución.

Pero soy un principiante en estadística, por lo que podría haber muchas buenas razones por las que sin reemplazo podría ser la mejor opción, al menos para casos de uso específicos. Por favor, desconciertame!

Raffael
fuente
3
Sugerencia: considere cuál es el efecto de aplicar la corrección de población finita y por qué eso podría ser ventajoso. (También tenga en cuenta que (1) hacer sumas es casi siempre menos problemas y gastos que recopilar datos; (2) si puede distinguir a las personas, no debe "reciclar" las mediciones, sino basar la inferencia solo en las distintas personas.)
Scortchi - Reincorporar a Monica
Honestamente, en realidad no entiendo ninguna de sus afirmaciones. El FPC compensa las consecuencias numéricas de la falta de independencia de las mediciones. Pero no sé por qué esto es ventajoso. (1) ¿Cómo se relaciona esto con mi pregunta? (2) ¿Por qué "no debería" reciclar una medida? ¿No es así la consecuencia lógica directa de haber extraído casualmente el doble del mismo elemento al tomar muestras con reemplazo?
Raffael

Respuestas:

13

Ampliando la respuesta de @Scortchi. . .

Suponga que la población tiene 5 miembros y usted tiene un presupuesto para muestrear 5 individuos. Usted está interesado en la media poblacional de una variable X, una característica de los individuos en esta población. Puede hacerlo a su manera y tomar muestras al azar con reemplazo. La varianza de la media muestral será V (X) / 5.

Por otro lado, suponga que toma una muestra de las cinco personas sin reemplazo. Entonces, la varianza de la media muestral es 0. Usted ha muestreado la población completa, cada individuo exactamente una vez, por lo que no hay distinción entre "media muestral" y "media poblacional". Ellos son la misma cosa.

En el mundo real, debe saltar de alegría cada vez que tiene que hacer la corrección de población finita porque (redoble de batería ...) hace que la varianza de su estimador disminuya sin tener que recopilar más datos. Casi nada hace esto. Es como magia: buena magia.

Decir exactamente lo mismo en matemáticas (preste atención a <, y suponga que el tamaño de la muestra es mayor que 1):

finite sample correction=NnN1<N1N1=1

Corrección <1 significa que aplicar la corrección hace que la varianza baje, porque aplica la corrección multiplicándola contra la varianza. Varianza ABAJO == bueno.

Moviéndose en la dirección opuesta, completamente lejos de las matemáticas, piense en lo que está preguntando. Si desea aprender sobre la población y puede muestrear a 5 personas de ella, ¿parece probable que aprenda más al tomar la oportunidad de probar al mismo tipo 5 veces o parece más probable que aprenda más al asegurar que muestras 5 tipos diferentes?

El caso del mundo real es casi lo contrario de lo que estás diciendo. Casi nunca muestras con reemplazo, solo cuando haces cosas especiales como bootstrapping. En ese caso, en realidad estás tratando de arruinar el estimador y darle una variación "demasiado grande".

Cuenta
fuente
Bajo "bootstrapping" entiendo el uso de un parámetro de la muestra en lugar del parámetro de la población (que realmente habría tenido que usar) para estimar un parámetro de la población. ¿Por qué estaría interesado en "arruinar" el estimador y darle una variación "demasiado grande"?
Raffael
1
@ Яaffael Estoy hablando de bootstrapping no paramétrico. Usted toma su muestra (digamos del tamaño 100), vuelve a tomar muestras de ella con un reemplazo (100 veces produciendo una muestra de arranque de tamaño 100) y luego vuelve a calcular su estimador de interés. Está tratando la muestra como una población de juguetes, simulando extraer una muestra de ella, calculando un estimador. Si tomaste muestras de la población de juguetes sin reemplazo, copiarías exactamente la población de juguetes en la muestra, obteniendo la estimación original como la nueva estimación (es decir, varianza = 0). Para evitar esto, así que muestra con reemplazo.
Bill
5

La precisión de las estimaciones suele ser mayor para el muestreo sin reemplazo en comparación con el muestreo con reemplazo.

Por ejemplo, es posible seleccionar solo un elemento veces cuando el muestreo se realiza con reemplazo en un caso extremo. Eso podría conducir a una estimación muy imprecisa del parámetro de interés de la población. Tal situación no es posible bajo muestreo sin reemplazo. Por lo tanto, la varianza suele ser menor para las estimaciones realizadas a partir del muestreo sin reemplazo.n

djhurio
fuente
2

No creo que las respuestas aquí sean totalmente adecuadas, y parecen argumentar a favor del caso límite en el que su cantidad de datos es muy baja.

Con una muestra suficientemente grande, esto no es una preocupación en absoluto, especialmente con muchos resamples de arranque (~ 1000). Si he muestreado de la distribución verdadera un conjunto de datos de tamaño 10,000, y vuelvo a muestrear con reemplazo 1,000 veces, entonces la varianza que obtengo (a diferencia de la varianza que obtendría al no reemplazarla) es totalmente insignificante.

Yo diría que la respuesta más precisa es esta: el muestreo nuevo sin reemplazo es esencial cuando se estima la confianza de una estadística de segundo orden . Por ejemplo, si estoy usando un bootstrap para estimar la incertidumbre que tengo en una medición de dispersión. Dibujar con reemplazo para tal cantidad puede sesgar artificialmente las dispersiones recuperadas bajas.

Para un ejemplo concreto con datos reales, si está preparado, consulte este documento https://arxiv.org/abs/1612.02827

discute brevemente su pregunta en la página 10

Anónimo
fuente
0

Tengo un resultado que trata sin reemplazo prácticamente como con reemplazo y elimina todas las dificultades. Tenga en cuenta que con los cálculos de reemplazo son mucho más fáciles. Entonces, si una probabilidad involucra p y q, probabilidades de éxito y fracaso, en caso de reemplazo, la probabilidad correspondiente en caso sin reemplazo se obtiene simplemente con el reemplazo de p ^ aq ^ b con (Nab) C (Ra) para cualquier a y b, donde N, R son el número total de bolas y el número de bolas blancas. Recuerde que p se trata como R / N.

K.Balasubramanian

Krish Balasubramanian
fuente
Hubo una omisión. (Nab) C (Ra) / (NCR) es la expresión correcta. Por ejemplo, la media np se convierte en n (N-1-0) / (R-1) / NCR. Puede verificar cualquier resultado.
Krish Balasubramanian