Submuestra de una muestra aleatoria: ¿muestra aleatoria?

8

Digamos que tiene una gran muestra aleatoria de jugadores de fútbol en Europa, pero solo le interesa lo que sucede en España. ¿Podrías reducir tu muestra a jugadores en España y todavía llamarla una muestra aleatoria (pero de una población diferente)? Si no, ¿cómo llamaría a esa submuestra y qué precauciones específicas debe tomar para poder hacer inferencias sobre la población de futbolistas españoles?

Mi sensación es que usar esa submuestra estaría bien siempre que sea lo suficientemente grande, pero tal vez me falta algo.

Antoine Vernet
fuente
3
Tenga en cuenta que esto es vagamente similar al muestreo de rechazo. Sin embargo, en el método que describe, tenga en cuenta que el tamaño de la muestra resultante es en realidad una variable aleatoria. Dependiendo del tipo de análisis que tenga en mente, esto puede o no presentar algunas complicaciones. Por ejemplo, en muchos (pero no todos) GLM, el tamaño de la muestra es efectivamente aleatorio, pero la inferencia se realiza condicionalmente (y este enfoque puede justificarse rigurosamente).
cardenal
@cardinal Gracias por la referencia al muestreo de rechazo. Me pregunto qué tipo de complicaciones se introducirían. Si la nueva muestra se puede describir como una muestra aleatoria de otra población, ¿no puedo ignorar "virtualmente" el hecho de que se obtuvo mediante remuestreo?
Antoine Vernet

Respuestas:

2

En términos generales, lo que realmente quieres de una muestra es ser "representativo". El muestreo aleatorio es un buen camino, ya que permite a todos los sujetos la misma probabilidad de ser muestreados; Con la esperanza de que todos los atributos y relaciones de atributos existentes en la población existan en la muestra. Haciéndolo "representativo". En su caso, si cree que todos los jugadores españoles tenían la misma probabilidad a priori de ser sorteados en la (sub) muestra, entonces es "aleatorio".

Con respecto a las consideraciones de tamaño: una sola observación puede ser una "muestra aleatoria". Se necesitan muestras más grandes cuando se desea mayor precisión, y especialmente cuando se buscan relaciones raras en la población, que podrían no estar presentes en una muestra pequeña.

JohnRos
fuente
3
La aleatoriedad es más que iguales oportunidades anteriores. Por ejemplo, un equipo en España podría haber sido seleccionado al azar. Asumiendo equipos de igual tamaño, esto les da a todos los jugadores de fútbol la misma posibilidad de ser incluidos en la muestra, pero es difícil suponer que un solo equipo es realmente representativo de todos los jugadores en el país.
whuber
2
(...) pero es difícil suponer que un solo equipo es verdaderamente representativo de todos los jugadores del país ... ¡ especialmente si ese país es España ! :)
cardenal
2
@ whuber- tienes razón. Para ser precisos, no solo las mismas oportunidades previas , sino también las mismas oportunidades dado el resto de la muestra. Esto excluirá el esquema de muestreo en equipo.
JohnRos
@JohnRos. Gracias por la precisión sobre la relación entre aleatoriedad y representatividad.
Antoine Vernet
@whuber Gracias por señalar que las mismas oportunidades previas son necesarias pero no suficientes.
Antoine Vernet
1

Suponiendo que no haya sesgos en la técnica de muestreo, esto debería estar bien. Algunas preguntas para hacer podrían ser:

-> ¿La encuesta se realizó en español si se solicitó? (Sesgo de idioma) -> ¿La encuesta se realizó por teléfono o en persona? Si por teléfono se excluyeron los teléfonos celulares, ¿son los jugadores españoles más o menos propensos a tener teléfonos celulares que los jugadores en el resto de Europa, y por qué razones? -> ¿La tasa a la que los jugadores españoles se negaron a responder las preguntas de la encuesta fue diferente de la tasa para los jugadores en general? -> En general, ¿qué proporción de jugadores españoles fueron muestreados?

Sin conocer la composición exacta de los datos, es difícil decir más. ¿Hay algún problema específico que le preocupe?

John Doucette
fuente
Estoy de acuerdo con los puntos que haces , pero ¿dónde dice que los jugadores fueron contactados o intentaron ser contactados? El OP podría tener, por ejemplo, algunas estadísticas resumidas para un subconjunto aleatorio de jugadores de Europa.
cardenal
@ John Doucette Gracias. Estas precauciones tienen sentido para mí, pero estrictamente hablando, no son precauciones estadísticas sino de diseño, lo que me lleva a pensar que suponiendo que no exista un sesgo conocido para la subpoblación, seleccionar personas en esa subpoblación en su muestra lo deja con una muestra aleatoria. . En cuanto a los datos, el ejemplo es ficticio, solo estaba tratando de alejarme de los niños en las aulas en el tipo de ejemplo de las escuelas.
Antoine Vernet