Está arraigado en la enseñanza de disciplinas aplicadas, como la medicina, que las mediciones de cantidades biomédicas en la población siguen una "curva de campana" normal. Una búsqueda en Google de la la cadena "que supone una distribución normal" retornos resultados! Parecen, "dado el pequeño número de puntos de datos extremos, asumimos una distribución normal para las anomalías de temperatura" en un estudio sobre el cambio climático; o "asumimos una distribución normal de las fechas de eclosión de los pollitos" en un documento posiblemente menos polémico sobre pingüinos; o "asumimos una distribución normal de los choques de crecimiento del PIB" ,, ... Y otras cosas).
Recientemente, me encontré cuestionando el tratamiento de los datos de conteo como normalmente distribuidos debido a su naturaleza estrictamente positiva. Por supuesto, los datos de recuento son discretos, lo que hace que su normalidad sea aún más artificial. Pero incluso dejando de lado este último punto, ¿por qué las medidas empíricas continuas como el peso, la estatura o la concentración de glucosa, consideradas prototípicamente "continuas", deben considerarse normales? ¡No pueden tener observaciones negativas realizadas más que los conteos!
Entiendo que cuando la desviación estándar es sustancialmente más baja que la media, lo que indica pocos valores negativos ("verificación del rango del 95%") puede ser una suposición práctica, y los histogramas de frecuencia pueden ser compatibles si no están demasiado sesgados. Pero la pregunta no parecía trivial, y una búsqueda rápida arrojó cosas interesantes.
En Nature podemos encontrar la siguiente declaración en una carta de DF Heath : "Deseo señalar que para el análisis estadístico de ciertos tipos de datos, la suposición de que los datos provienen de una población normal generalmente es incorrecta, y que la alternativa la suposición de una distribución logarítmica normal es mejor. Esta alternativa es ampliamente utilizada por estadísticos, economistas y físicos, pero por alguna razón a menudo es ignorada por los científicos de otras disciplinas ".
Limpert señala que "el modelo logarítmico normal puede servir como una aproximación en el sentido de que muchos científicos perciben lo normal como una aproximación válida ahora" , al tiempo que señala el bajo poder de las pruebas de normalidad de bondad de ajuste y la dificultad para seleccionar la distribución correcta empíricamente cuando se trata de muestras pequeñas.
Por lo tanto, la pregunta es: "¿Cuándo es aceptable asumir una distribución normal de una medición empírica en las ciencias aplicadas sin más evidencia de apoyo?" Y, ¿por qué otras alternativas, como el log-normal, no lo han hecho, y probablemente simplemente no se van a apoderar?
fuente
Respuestas:
Encuentro tu pregunta realmente interesante. Tengamos algunas cosas en cuenta:
Dicho esto, decir que cualquier variable observada sigue una distribución normal o Log-Normal suena un poco loco. En la práctica, lo que se hace es medir las desviaciones de las frecuencias observadas de las frecuencias esperadas, si esa variable proviene de una población normal (o de cualquier otra distribución). Si puede decir que esas desviaciones son simplemente aleatorias, porque está muestreando, entonces puede decir algo como que no hay suficiente evidencia para rechazar la hipótesis nula de que esta variable proviene de una población normal , que se traduce en que trabajaremos como si ( suponiendo que) la variable sigue una distribución normal .
Respondiendo a su primera pregunta, no creo que haya alguien tan valiente para decir que se supone que una variable se distribuye normalmente sin más evidencia . Para decir algo así, necesita al menos un diagrama qq, un histograma, una prueba de bondad de ajuste o una combinación de ellos.
fuente