La prueba Student requiere la desviación estándar de la muestra . Sin embargo, ¿cómo calculo para cuando solo se conocen el tamaño de la muestra y el promedio de la muestra?
Por ejemplo, si el tamaño de la muestra es y el promedio de la muestra es , intentaré crear una lista de muestras idénticas con valores de cada una. Como era de esperar, la desviación estándar de la muestra es . Esto creará un problema de división por cero en la prueba .
DATOS ADICIONALES:
El ingreso promedio de los trabajadores de ACME North Factory es de . Se informa que una muestra aleatoria de trabajadores en ACME South Factory tuvo un ingreso anual de . ¿Es esta diferencia estadísticamente significativa?
¿Estoy en lo cierto al decir que la media de la población es ?
Respuestas:
Esto puede sorprender a muchos, pero para resolver este problema no necesariamente necesita estimar s . De hecho, no necesita saber nada sobre la difusión de los datos (aunque eso sería útil, por supuesto). Por ejemplo, Wall, Boen y Tweedie en un artículo de 2001 describen cómo encontrar un intervalo de confianza finito para la media de cualquier distribución unimodal basada en un solo sorteo.
En el presente caso, tenemos alguna base para ver la media muestral de 112 como un sorteo de una distribución aproximadamente normal (es decir, la distribución muestral del promedio de una muestra aleatoria simple de 49 salarios). Suponemos implícitamente que hay un número bastante grande de trabajadores de fábrica y que su distribución salarial no es tan sesgada o multimodal como para hacer que el teorema del límite central no funcione. Luego, un IC conservador del 90% para la media se extiende hacia arriba hasta
cubriendo claramente la media real de 200. (Véase la fórmula 3 de Wall et al .) Dada la limitada información disponible y las suposiciones hechas aquí, por lo tanto, no podemos concluir que 112 difiere "significativamente" de 200.
Referencia: "Un intervalo de confianza efectivo para la media con muestras de tamaño uno y dos". The American Statistician, mayo de 2001, vol. 55, núm. 2: págs. 102-105. ( pdf )
fuente
Esto parece ser una pregunta un poco inventada. 49 es un cuadrado exacto de 7. El valor de una distribución t con 48 DoF para una prueba de dos lados de p <0.05 es casi 2 (2.01).
Rechazamos la hipótesis nula de igualdad de medios si | sample_mean - popn_mean | > 2 * StdError, es decir 200-112> 2 * SE, entonces SE <44, es decir, SD <7 * 44 = 308.
Sería imposible obtener una distribución normal con una media de 112 con una desviación estándar de 308 (o más) sin salarios negativos.
Dado que los salarios están limitados a continuación, es probable que sean asimétricos, por lo que asumir una distribución logarítmica normal sería más apropiado, pero aún requeriría salarios muy variables para evitar una p <0.05 en una prueba t.
fuente
la media de la muestra será de 112. De hecho, al ajustar la proporción de trabajadores / CEO y el salario del CEO, podemos hacer que sea arbitrariamente improbable que una muestra de 49 empleados atraiga a un CEO, mientras fijamos la media de la población en 200, y la media de la muestra en 112. Por lo tanto, sin hacer algunas suposiciones sobre la distribución subyacente, no se puede hacer ninguna inferencia sobre la media de la población.fuente
Supongo que se refiere a una prueba t de una muestra. Su objetivo es comparar la media de su muestra con una media hipotética. Luego calcula (suponiendo que su población es gaussiana) un valor P que responde a esta pregunta: si la media de la población realmente fuera el valor hipotético, ¿qué tan improbable sería extraer una muestra cuya media esté tan lejos de ese valor (o más) que usted observó? Por supuesto, la respuesta a esa pregunta depende del tamaño de la muestra. Pero también depende de la variabilidad. Si sus datos tienen una gran cantidad de dispersión, son consistentes con una amplia gama de medios de población. Si sus datos son realmente ajustados, son consistentes con un rango menor de medios de población.
fuente