Soy bastante nuevo en estadísticas (un puñado de cursos Uni de nivel principiante) y me preguntaba sobre el muestreo de distribuciones desconocidas. Específicamente, si no tiene idea de la distribución subyacente, ¿hay alguna forma de "garantizar" que obtenga una muestra representativa?
Ejemplo para ilustrar: digamos que está tratando de descubrir la distribución global de la riqueza. Para cualquier individuo, de alguna manera puede averiguar su riqueza exacta; pero no puedes "probar" a cada persona en la Tierra. Entonces, digamos que muestreas n = 1000 personas al azar.
Si su muestra no incluye Bill Gates, podría pensar que no existen multimillonarios.
Si la muestra incluye Bill Gates, podría pensar que los multimillonarios son más comunes de lo que realmente son.
En cualquier caso, no se puede saber cuán comunes o raros son los multimillonarios; Es posible que ni siquiera pueda decir si existe alguna.
¿Existe un mejor mecanismo de muestreo para un caso como este?
¿Cómo le diría a priori qué procedimiento de muestreo utilizar (y cuántas muestras se necesitan)?
Me parece que es posible que tenga que "probar" un gran porcentaje de la población para saber, con algo que se acerque a una certeza razonable, qué tan comunes o raros son los multimillonarios en el planeta, y que esto se debe a que la distribución subyacente es un poco difícil trabajar con.
Respuestas:
fuente
Hay dos cosas que puede hacer (por separado o en combinación)
Modelar la cola
Una es modelar la cola de la distribución usando una distribución paramétrica. Se sabe que las leyes de poder se ajustan bien a la distribución de la riqueza, por lo que intenta una distribución de Pareto. Puede ajustar esa distribución por la máxima probabilidad, es decir, al encontrar los parámetros que mejor representan su muestra. O mejor, podría poner un previo Bayesiano en los parámetros y calcular el posterior completo.
Desafortunadamente, las leyes de potencia son muy sensibles a los parámetros, y sin muchos puntos de datos grandes en su muestra, habrá mucha incertidumbre sobre el exponente. El número estimado de multimillonarios será sensible a este parámetro, pero mucho menos que la riqueza promedio de multimillonarios, por lo que la situación no es tan mala.
Muestreo de importancia
El otro es cambiar la forma en que recolecta su muestra. Suponga que sospecha (como debería) que hay más multimillonarios per cápita en Mónaco o Zúrich que en Mogadishiu. Si conoce la población de cada una de estas ciudades, podría recolectar una muestra más grande en las ciudades donde espera ver más multimillonarios, y una más pequeña en las demás.
Digamos que Zurich tiene 400,000 personas y Mogadishu 1,400,000 y queremos encuestar a 9,000 personas. Aquí nos interesa la cantidad de millonarios, no multimillonarios.
Una muestra imparcial seleccionaría 2,000 personas en Zurich y 7,000 en Mogadiscio. Sin embargo, sesgaremos la muestra muestreando siete veces más a menudo de Zurich. Así que "fingiremos" que Zúrich tiene 2.800.000 personas y luego nos adaptaremos. Esto significa que encuestaremos a 6,000 personas en Zurich en lugar de 2,000 y 4,000 en Mogadiscio.
Digamos que contamos con 21 millonarios en nuestra muestra de Zurich, y solo 1 en nuestra muestra de Mogadiscio. Dado que probamos más de 7 veces Zurich, solo lo contaríamos como 3 millonarios.
Este procedimiento disminuirá la varianza de su estimador. También se puede usar junto con el primer método, en cuyo caso se ajustará la muestra de importancia al ajustar una distribución paramétrica.
fuente
Creo que un buen método de muestreo se basa en el conocimiento previo del sistema. En su campo, tiene conocimiento sobre posibles sesgos que podrían afectar su muestreo. Si no tiene ese conocimiento, puede adquirirlo de la literatura.
En su ejemplo, sabe que hay multimillonarios y que pueden sesgar su muestreo. Por lo tanto, puede decidir estratificar el muestreo por nivel educativo, país, tipo de trabajo, etc. Existen múltiples opciones.
Probemos con otro ejemplo. Su objetivo es determinar la abundancia de una especie de ratones en un parque. En este parque, hay bosques y prados. Según la literatura, sabes que los ratones son más abundantes en el bosque que los prados. Entonces, estratifica su muestreo por esta característica. Hay otro procedimiento de muestreo posible, pero creo que su mejor información será de la literatura existente.
¿Y si no hay literatura sobre su campo? Improbable, pero en ese contexto, haría un estudio previo para ver qué factores deben tenerse en cuenta para el muestreo.
fuente
Si una muestra es representativa o no, no tiene nada que ver con las mediciones observadas de la muestra. Una muestra es representativa si cada conjunto de unidades de observación tiene la misma probabilidad de ser elegido que cualquier otro conjunto del mismo tamaño. Por supuesto, esto es difícil de hacer a menos que pueda obtener una enumeración completa de su espacio muestral. Suponiendo que pueda obtener eso (de los datos del tramo censal, por ejemplo), una muestra aleatoria simple será representativa.
No importa cómo obtenga su muestra, siempre habrá al menos tres fuentes de error separadas para considerar:
error de muestreo: por casualidad, incluye a Bill Gates en su muestra representativa. Los métodos estadísticos, especialmente los anchos de los intervalos de confianza, etc. están diseñados para ocuparse de esto, siempre que tenga un conocimiento aproximado de la distribución en cuestión (por ejemplo, normalidad, que la distribución de la riqueza definitivamente no posee).
sesgo de muestreo: la muestra no fue representativa. Ejemplo: Bill Gates tiene un número que no figura en la lista, por lo que su encuesta telefónica nunca podría comunicarse con él (a menos que use algo como "marcación de dígitos aleatorios"). Este es un ejemplo extremo, pero el sesgo de muestreo está muy extendido. Una ocurrencia común es tomar muestras en el lugar o por conveniencia: usted muestra a los clientes del restaurante en el restaurante si les gusta el lugar, con qué frecuencia han estado allí y si planean regresar. Los clientes repetidos tienen muchas más probabilidades de ser muestreados que los clientes únicos, y las muestras de este tipo pueden estar severamente sesgadas en sus actitudes.
sesgo de respuesta: las mediciones en sí mismas son inexactas. Esto puede ocurrir debido a cualquier cosa, desde mal funcionamiento del medidor hasta mentiras conscientes hasta efectos cuánticos (por ejemplo, el principio de incertidumbre de Heisenberg).
fuente