¿Los 20 sujetos tienen la misma altura si la desviación estándar de la muestra se informa como 0.0?

De acuerdo con este hilo SE de biología , la desviación estándar de la estatura del hombre adulto es aproximadamente $0.07$ metros, y de las hembras es de aproximadamente $0.06$ metros

Redondeando estos a un decimal, daría $0.1$ metros El hecho de que la desviación estándar se informa como $0.0$ metros indica una desviación estándar debajo $0.05$ metros ... pero una desviación estándar de, digamos, $0.048$ los metros seguirían siendo consistentes con la cifra informada, ya que se redondearía a $0.0$ , sin embargo, indicaría una variación en las alturas en la muestra solo ligeramente menor que la variabilidad que observamos todos los días en la población general.

¿Está bien informada la cifra? Bueno, sería mucho más útil si la desviación estándar se hubiera informado a dos decimales, como lo fue la media. También puede ser un simple error numérico o de redondeo; por ejemplo $0.07$ podría haber sido truncado a $0.0$ en lugar de redondeado . Pero, ¿podría ser posible que la figura se refiera al error estándar en su lugar? A menudo veo cifras escritas de una manera que hace ambiguo si se cita una desviación estándar o un error estándar, por ejemplo, "la media muestral es $1.62 (\pm 0.06)$ ".

Cuán plausible es para la desviación estándar correcta redondear a $0.0$ a un decimal? El siguiente código R simula un millón de muestras de tamaño veinte tomadas de una población de desviación estándar $0.06$ (como se informó en otra parte para la altura femenina), encuentra la desviación estándar para cada muestra, traza un histograma de los resultados y calcula la proporción de muestras en las que la desviación estándar observada fue inferior $0.05$ :

set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6

[1] 0.170691

De ahí una desviación estándar que se redondea a $0.0$ no es inverosímil, ocurre aproximadamente el diecisiete por ciento del tiempo si las alturas se distribuyen normalmente con una verdadera desviación estándar $0.06$ .

Sujeto a estos supuestos, también podemos calcular, en lugar de simular, esa probabilidad como aproximadamente diecisiete por ciento, de la siguiente manera:

P (S^{2} < {0.05}^{2}) = P (\frac{19 S^{2}}{{0.06}^{2}} < \frac{19 \times {0.05}^{2}}{{0.06}^{2}}) = P (\frac{19 S^{2}}{{0.06}^{2}} < 13.194) = 0.1715

$P(S^2 < 0.05^2) = P\left(\frac{19 S^2}{0.06^2} < \frac{19 \times 0.05^2}{0.06^2}\right) = P\left(\frac{19 S^2}{0.06^2} < 13.194\right) = 0.1715$

donde hemos usado el hecho de que ${(n-1) S^2}/{\sigma^2} = {19 S^2}/{0.06^2}$ sigue la distribución chi-cuadrado con $n-1 = 19$ grados de libertad. Puedes calcular la probabilidad en R usando pchisq(q = 19*0.05^2/0.06^2, df = 19); si reemplazas $0.06$ por $0.07$ En línea con las cifras publicadas para las desviaciones estándar masculinas, la probabilidad se reduce a alrededor del cuatro por ciento. Como @whuber señala en los comentarios a continuación, es más probable que ocurra este tipo de SD "redondas a cero" pequeñas si el grupo de la muestra fue más homogéneo que la población general. Si la desviación estándar de la población es aproximadamente $0.06$ metros, entonces la probabilidad de obtener una desviación estándar de muestra tan pequeña también habría disminuido si el tamaño de la muestra hubiera sido mayor.

curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
      xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")

curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
      xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")

Lepisma
fuente

+1. También es plausible que el estudio fuera de, digamos, un grupo de personas de una población homogénea, como un equipo deportivo, un grupo de porristas, etc., en cuyo caso la DE podría haber sido de 0.01m o menos.

whuber

@whuber Buen punto! Me preguntaba cuán plausible podría ser para el SD redondear a 0.00 (es decir, ser menor a 0.005) y me sorprendió cuán estrictas son las condiciones para esto. Probablemente no debería haberlo sido, ya que realmente se reduce a la cancelación de la relación. Pero, por ejemplo, si las animadoras tienen una población SD = 0.01, entonces pchisq(q = 19*0.005^2/0.01^2, df = 19)solo da un 0.04% de probabilidad de muestra SD <0.005. Incluso la población SD = 0.008 da una probabilidad de solo alrededor del 0.8%. Pero las DE de la población de 0.007, 0.006 y 0.005 dan probabilidades del 4%, 17% (¡no es coincidencia!) Y 54% respectivamente

Silverfish

Puedo imaginar algunas formas de obtener muy poca variación. Imagine una condición que impone una altura mínima o máxima; por ejemplo, en el pasado, muchos ejércitos han impuesto una altura máxima para la tripulación de sus tanques, por ejemplo, o algunos lugares han tenido una altura mínima para la policía. Si tomamos al miembro de la tripulación más alto en cada pelotón de tanques (dada una regla de altura máxima histórica típica, que generalmente está muy por debajo de la altura promedio) y encontramos la desviación estándar de muestra de sus alturas, tenderá a ser muy pequeña, porque esas alturas tenderán ser atascado contra el límite.

Glen_b -Reinstale a Monica el

Dado que no se especificó ningún idioma o herramienta en la pregunta, 0.0 no necesariamente indica redondeo o truncamiento a un decimal. 0.0 puede ser simplemente cómo el idioma en cuestión muestra 0 como un número decimal / coma flotante (lo que hacen algunos idiomas).

NotThatGuy

¿Los 20 sujetos tienen la misma altura si la desviación estándar de la muestra se informa como 0.0?

Respuestas: