¿Tiene sentido calcular intervalos de confianza y probar hipótesis cuando hay datos disponibles de toda la población? En mi opinión, la respuesta es no, ya que podemos calcular con precisión los valores verdaderos de los parámetros. Pero entonces, ¿cuál es la proporción máxima de datos de la población original que nos permite usar las técnicas antes mencionadas?
hypothesis-testing
confidence-interval
sample-size
large-data
population
Miroslav Sabo
fuente
fuente
Respuestas:
La primera pregunta es aquella que generalmente no tiene una respuesta acordada. Mi propia opinión es como la suya, pero otros han argumentado que una población se puede ver como una muestra de una "superpoblación" donde la naturaleza exacta de una superpoblación varía según el contexto: por ejemplo, un censo de todas las personas que viven en un edificio podría verse como una muestra de todas las personas que viven en edificios similares; un censo de la población de los EE. UU. (No es que uno pueda estar realmente completo) podría verse como una muestra de una superpoblación de estadounidenses que algún día podría existir (o algo así). Creo que a menudo es una excusa para usar los valores p; muchos científicos en campos sustantivos no se sienten cómodos si no tienen un valor p. (Pero esa es mi opinión).
La segunda pregunta parece un poco extraña de responder de manera general. ¿Cuándo obtiene una muestra que es (digamos) incluso más de la mitad de la población?
Un problema mayor será el sesgo. Volviendo al censo de EE. UU., El problema no es simplemente que extraña a las personas, sino que las personas que extraña no son una muestra aleatoria de la población total; por lo tanto, incluso si el censo obtiene respuestas del 95% de todas las personas (para elegir un número), si ese 5% restante es bastante diferente, entonces los resultados serán sesgados.
fuente
Supongamos que solo 2 de cada 12 miembros del comité son mujeres.
O puede tomarse como una estimación de la probabilidad de que una mujer sea seleccionada para el comité, una propiedad del proceso de selección. Puede poner intervalos de confianza a su alrededor, probar si es significativamente diferente de la mitad (u otra hipótesis nula relevante), y así sucesivamente. Quizás sea necesario cambiar el proceso para que sea justo.
Los dos puntos de vista, descriptivos e inferenciales, no son contradictorios, sino bastante distintos.
La respuesta a la segunda pregunta es que tiene sentido calcular los intervalos de confianza para las hipótesis de prueba sobre un parámetro de población, incluso si no se muestrea a un solo individuo. Solo tenga en cuenta que los CI y las pruebas deben tener en cuenta una proporción considerable de la población que se está muestreando: ver corrección de población finita .
fuente