Estoy tratando de aprender estadísticas porque encuentro que es tan frecuente que me prohíbe aprender algunas cosas si no las entiendo correctamente. Tengo problemas para entender esta noción de una distribución de muestreo de las medias muestrales. No puedo entender la forma en que algunos libros y sitios lo han explicado. Creo que tengo un entendimiento, pero no estoy seguro si es correcto. A continuación está mi intento de entenderlo.
Cuando hablamos de algún fenómeno que tiene una distribución normal, generalmente (no siempre) concierne a la población.
Queremos usar estadísticas inferenciales para predecir algunas cosas sobre alguna población, pero no tenemos todos los datos. Usamos muestreo aleatorio y cada muestra de tamaño n tiene la misma probabilidad de ser seleccionada.
Entonces tomamos muchas muestras, digamos 100 y luego la distribución de las medias de esas muestras será aproximadamente normal de acuerdo con el teorema del límite central. La media de las medias muestrales se aproximará a la media poblacional.
Ahora, lo que no entiendo es que muchas veces ves "Una muestra de 100 personas ..." ¿No necesitaríamos 10s o 100s de muestras de 100 personas para aproximarnos a la población de la media? ¿O es el caso de que podemos tomar una sola muestra que sea lo suficientemente grande, digamos 1000 y luego decir que la media se aproximará a la media de la población? ¿O tomamos una muestra de 1000 personas y luego tomamos 100 muestras aleatorias de 100 personas en cada muestra de las 1000 personas originales que tomamos y luego usamos eso como nuestra aproximación?
¿Tomar una muestra lo suficientemente grande como para aproximar la media (casi) siempre funciona? ¿Es necesario que la población sea normal para que esto funcione?
sample std deviation / square root(n)
- la raíz cuadrada de n parte nos dice que obtenemos rendimientos decrecientes en la precisión de la estimación para incrementos fijos como tamaño de muestra se hace más grande (por ejemplo, pasar de 10 a 20 personas en una muestra mejora la precisión de la estimación más que pasar de 210 a 220 personas).fuente
La distribución muestral de la media es la distribución de TODAS las muestras de un tamaño dado. La media de la muestra dist es igual a la media de la población. Cuando hablamos de muestreo dist de media para muestras de un tamaño dado, no estamos hablando de una muestra o incluso de miles de muestras sino de todas las muestras.
fuente
El dist de muestreo de la media no tiene nada que ver con los intervalos de confianza. Ese es otro concepto. Para la muestra dist, la población puede ser normal o no normal a) Si pop es normal, entonces la muestra dist de la media será normal para cualquier tamaño de muestra. b) Si el pop no es normal, entonces 1) la distancia de muestreo de la media NO PUEDE considerarse normal, a menos que el tamaño de la muestra sea 30 o más. Luego, el Teorema del límite central nos dice que el dist de muestreo puede considerarse normal.
Hablas de predecir. Predecir tampoco tiene nada que ver con esto. Está insertando demasiado en samp dist. La muestra dist es simplemente Todas las muestras y luego se toma la media. Y la media de todas estas muestras, mu sub x bar, es igual a la media de la población, mu y estándar dev od muestra dist, sigma sub x bar = sigma dividido por la raíz cuadrada de n. (No hablaremos sobre el factor de corrección de pop finito. Tome su estadística como valor nominal. No lea demasiado en un concepto. Puño entienda el concepto básico.
PS La muestra dist de mean no tiene nada que hacer abput pr
fuente
He estado pensando en problemas de big data y he visto algunas de estas publicaciones esta mañana. No creo que este sea un problema trivial en absoluto, con respecto a la diferencia entre analizar los 1000 datos como un conjunto en comparación con el análisis de 10 conjuntos de 100. En teoría , si la hipótesis nula es cierta de que los datos son id, no tiene sentido diferencia. Sin embargo, la agrupación y los patrones en los datos no se abordan en absoluto si uno simplemente toma la media de los 1000 datos y cita la media estimada y el error estándar asociado.
La conclusión a la que he llegado, mirando algunas páginas en stackexchange y wikipedia, es que los grandes datos permiten ver lo obvio . Si hay algunas características interesantes en la población en su conjunto, un conjunto de datos grandes los mostraría claros como el día. Entonces, si tuviera un conjunto de datos muy grande, que pudiera ver visualmente, no intervendría y tomaría breves medidas de resumen sin buscar primero características muy obvias. Desde mis primeras lecciones en inferencia estadística, me enseñaron a mirar gráficos y visualizaciones de los datos como primer paso. No puedo enfatizar eso lo suficiente. Si el conjunto de datos es demasiado grande para que un humano lo vea en una pantalla, entonces debe submuestrearse a una resolución que sea legible para humanos.
fuente