¿Importa cómo muestreas una población?

9

Tengo una tina bien mezclada que contiene un número infinito de canicas. Hay una cantidad infinita de canicas en el tanque, pero solo vienen en un número desconocido pero finito de variedades : es desconocido, y para , dibujar una canica de tipo podría ser más probable que dibujar una canica de tipo .

V={v1,v2,v3,...,vk}
kijvivj

En un experimento, una máquina toma muestras del tanque utilizando algún procedimiento desconocido. La máquina informa un conjunto describe variedades de canicas de su muestra: Xqk

XV;|X|=q

Los ensayos de este experimento se repiten ( se corrige entre ensayos) y obtenemos una secuencia de subconjuntos de , .qV(X1,X2,)

Las únicas otras cosas que sabemos son:

  • los ensayos son independientes e idénticos
  • la máquina informa las principales variedades más frecuentes en su muestraq

No sabemos con precisión cómo la máquina toma muestras de canicas. Podría recoger una gran cantidad de canicas, luego reportar la más frecuente. Alternativamente, podría seguir recogiendo canicas hasta que haya variedades. Hay otras cosas que podría hacer también.qq

¿La distribución de nuestras pruebas verá afectada por el procedimiento de muestreo de la máquina?(X1,X2,)

grado
fuente
3
+1 Esta es una gran pregunta porque aprecia que hay más en el muestreo aleatorio que alguna forma vaga de arbitrariedad o falta de conocimiento sobre el procedimiento de muestreo.
whuber
La regla de muestreo ciertamente importará. De lo contrario, considere este procedimiento: la máquina, en cada prueba, siempre selecciona una canica de tipo 1 (primera variedad). Cada sorteo será independiente y tendrá una distribución idéntica (trivialmente), y obtendrá q = 1, un resultado perfectamente inútil.
AlaskaRon

Respuestas:

9

Una manera simple de verificar que el método es importante es elegir probabilidades particulares para los tipos de canicas y calcular la probabilidad de cada subconjunto de acuerdo con algunos métodos. Sin embargo, esto no puede probar que el método no importe.

Supongamos que hay tipos y las posibilidades de cada tipo son , y , respectivamente. Supongamos que está eligiendo tipos de canicas.31/21/41/42

Supongamos que después de elegir una canica, ignoras el resto del tipo. La posibilidad de obtener es .{v2,v3}21/41/3=1/6

Suponga que rechaza pares con tipos repetidos. La probabilidad de es{v2,v3}

21/41/421/41/4+21/21/4+21/21/4=1/81/8+1/4+1/4=1/5.

Como estos son diferentes, el método que utiliza la máquina es importante. Rechazar pares con tipos repetidos tiende a ponderar menos los pares con tipos comunes.

Dos de los métodos que menciona son equivalentes. Ignorar el resto de su tipo después de elegir una canica es lo mismo que elegir hasta que tenga diferentes tipos.q

Douglas Zare
fuente