Si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos se distribuyen normalmente?

Creé un histograma para Respondent Age y logré obtener una curva muy bonita en forma de campana, de la cual concluí que la distribución es normal.

Luego realicé la prueba de normalidad en SPSS, con n = 169. El valor p (Sig.) De la prueba de Kolmogorov-Smirnov es inferior a 0,05 y, por lo tanto, los datos han violado la suposición de normalidad.

¿Por qué la prueba indica que la distribución de edad no es normal, pero el histograma mostró una curva en forma de campana, que, según tengo entendido, es normal? ¿Qué resultado debo seguir?

normality-assumption kolmogorov-smirnov histogram eda NoraNorad
fuente

¿Por qué estás probando la normalidad?

Glen_b -Reinstate Monica

Además del excelente comentario de @ Glen_b y la igualmente excelente respuesta de Aksakal , tenga en cuenta que incluso para distribuciones continuas, KS requiere que la media y la sd se conozcan de antemano , no se estimen a partir de los datos. Esto esencialmente hace que la prueba KS sea inútil. "La prueba de Kolmogorov-Smirnov es solo una curiosidad histórica. Nunca debe usarse". (D'Agostino en d'Agostino y Stephens, eds., 1986). Si es así, usa Shapiro-Wilks en su lugar.

Stephan Kolassa

@Stephan Kolassa Buen consejo, pero te refieres a Shapiro-Wilk. (Las sugerencias de MB Wilk y SS Wilks a menudo se confunden o se combinan; el uso extraño de 's como posesivo en inglés aquí también puede contribuir a la confusión, incluso para muchos que tienen el inglés como primer idioma).

Nick Cox

En relación con el comentario de @StephanKolassa, vea ¿Es Shapiro-Wilk la mejor prueba de normalidad? ... la respuesta es que no es necesariamente, dependiendo de la alternativa que le interese, pero a menudo es una buena opción.

Silverfish

Respuestas:

Por lo general, sabemos que es imposible que una variable se distribuya exactamente de manera normal ...

La distribución normal tiene colas infinitamente largas que se extienden en cualquier dirección: es poco probable que los datos se encuentren lejos en estos extremos, pero para una distribución normal verdadera tiene que ser físicamente posible. Para las edades, un modelo distribuido normalmente predecirá que hay una probabilidad diferente de cero de 5 desviaciones estándar por encima o por debajo de la media, lo que correspondería a edades físicamente imposibles, como por debajo de 0 o por encima de 150. (Aunque si observa una pirámide de población , no está claro por qué esperarías que la edad se distribuya aproximadamente de manera normal en primer lugar.) De manera similar, si tuvieras datos de alturas, que intuitivamente podrían seguir una distribución más "normal", solo podría ser realmente normal si hubiera alguna posibilidad de alturas inferiores a 0 cm o superiores a 300 cm.

De vez en cuando he visto que sugiere que podemos evadir este problema al centrar los datos para que tengan una media cero. De esa manera son posibles las "edades centradas" positivas y negativas. Pero aunque esto hace que los valores negativos sean físicamente plausibles e interpretables (los valores centrados negativos corresponden a los valores reales que se encuentran por debajo de la media), no evita el problema de que el modelo normal producirá predicciones físicamente imposibles con una probabilidad distinta de cero, una vez que decodifica la "edad centrada" modelada de nuevo a una "edad real".

... entonces, ¿por qué molestarse en probar? Incluso si no es exacto, la normalidad puede ser un modelo útil.

La pregunta importante no es realmente si los datos son exactamente normales; sabemos a priori que no puede ser el caso, en la mayoría de las situaciones, incluso sin ejecutar una prueba de hipótesis, sino si la aproximación es lo suficientemente cercana para sus necesidades. Ver la pregunta ¿ es esencialmente inútil la prueba de normalidad? La distribución normal es una aproximación conveniente para muchos propósitos. Rara vez es "correcto", pero generalmente no tiene que ser exactamente correcto para ser útil. Esperaría que la distribución normal sea generalmente un modelo razonable para las alturas de las personas, pero requeriría un contexto más inusual para que la distribución normal tenga sentido como modelo de las edades de las personas.

Si realmente siente la necesidad de realizar una prueba de normalidad, entonces Kolmogorov-Smirnov probablemente no sea la mejor opción: como se señaló en los comentarios, hay disponibles pruebas más potentes. Shapiro-Wilk tiene un buen poder contra una gama de posibles alternativas, y tiene la ventaja de que no necesita conocer de antemano la verdadera media y la varianza . Pero tenga en cuenta que en muestras pequeñas, las desviaciones de la normalidad potencialmente bastante grandes pueden pasar desapercibidas, mientras que en las muestras grandes, incluso las desviaciones de la normalidad muy pequeñas (y para fines prácticos, irrelevantes) pueden aparecer como "altamente significativas" ( p -valor).

"En forma de campana" no es necesariamente normal

Parece que le han dicho que piense en los datos "en forma de campana", datos simétricos que alcanzan su punto máximo en el medio y que tienen una menor probabilidad en las colas, como "normales". Pero la distribución normal requiere una forma específica para su pico y colas. Hay otras distribuciones con una forma similar a primera vista, que también puede haber caracterizado como "en forma de campana", pero que no son normales. A menos que tenga una gran cantidad de datos, es poco probable que pueda distinguir que "se ve como esta distribución estándar pero no como las otras". Y si usted tiene una gran cantidad de datos, es probable que encuentre que no se ve bastante como cualquier distribución "off-the-shelf" en absoluto! Pero en ese caso, para muchos propósitos, usted '

Galería de distribuciones "en forma de campana"

La distribución normal es la "forma de campana" a la que está acostumbrado; el Cauchy tiene un pico más agudo y colas "más pesadas" (es decir, que contienen más probabilidad); la distribución t con 5 grados de libertad se encuentra en algún punto intermedio (lo normal es t con df infinito y el Cauchy es t con 1 df, por lo que tiene sentido); la distribución exponencial de Laplace o doble tiene pdf formado a partir de dos distribuciones exponenciales reescaladas consecutivas, lo que resulta en un pico más agudo que la distribución normal; la distribución Betaes bastante diferente, por ejemplo, no tiene colas que se dirigen al infinito, en lugar de tener cortes agudos, pero aún puede tener la forma de "joroba" en el medio. En realidad, jugando con los parámetros, también puede obtener una especie de "joroba sesgada", o incluso una forma de "U": la galería en la página de Wikipedia vinculada es bastante instructiva sobre la flexibilidad de esa distribución. Finalmente, la distribución triangular es otra distribución simple en un soporte finito, a menudo utilizada en el modelado de riesgos.

Es probable que ninguna de estas distribuciones describa exactamente sus datos, y existen muchas otras distribuciones con formas similares, pero quería abordar la idea errónea de que "joroba en el medio y aproximadamente simétrica significa normal". Dado que existen límites físicos en los datos de edad, si sus datos de edad están "agrupados" en el medio, entonces es posible que una distribución con soporte finito como Beta o incluso una distribución triangular pueda ser un modelo mejor que uno con colas infinitas como la normal. Tenga en cuenta que incluso si sus datos realmente se distribuyen normalmente, es poco probable que su histograma se parezca a la clásica "campana" a menos que el tamaño de su muestra sea bastante grande. Incluso una muestra de una distribución como Laplace, cuyo pdf es claramente distinguible de la normal debido a su cúspide,

Muestras normales y de Laplace de varios tamaños de muestra.

Código R

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

Lepisma
fuente

La edad no puede ser de distribución normal. Piense lógicamente: no puede tener una edad negativa, pero la distribución normal permite números negativos.

Hay muchas distribuciones en forma de campana por ahí. Si algo se ve en forma de campana, no significa que tenga que ser normal.

No hay forma de saber con seguridad algo en las estadísticas, incluso de qué distribución provienen los datos. La forma es una pista: la forma de campana es un argumento para la distribución normal. Además, comprender sus datos es muy importante. La variable como la edad a menudo está sesgada, lo que descartaría la normalidad. Como se mencionó, la distribución normal no tiene límites, pero a veces se usa para variables limitadas. Por ejemplo, si la edad media es de 20 años y la desviación estándar es 1, entonces la probabilidad de tener <17 o> 23 años es inferior al 0,3%. Por lo tanto, es posible que la distribución normal sea una buena aproximación .

Puede intentar ejecutar una prueba estadística de normalidad como Jarque-Bera, que tiene en cuenta la asimetría y la curtosis de la muestra. La curtosis puede ser importante en algunos casos. Es muy importante en las finanzas, porque si modela los datos con una distribución normal, pero los datos son de hecho de una distribución de cola gruesa, puede terminar subestimando los riesgos y precios de los activos.

Le ayudaría informar algunas estadísticas descriptivas o un histograma de sus datos de edad y altura, como la media, la varianza, la asimetría, la curtosis.

Aksakal
fuente

Gracias por su ayuda, ¿puede decirme cómo saber que ciertos datos provienen de una distribución normal? Sé que quiero aprender más sobre esto porque parece que he entendido mal el concepto ya que soy nuevo en esto. Gracias de nuevo.

NoraNorad

Sin embargo, la distribución normal a menudo se usa como una aproximación para variables como la edad. Y no es realmente un problema ya que puede definir age_centredcomo age - mean(age)y tiene una variable con media 0, con alguna desviación estándar, valores positivos y negativos. Entonces no sería tan estricto al respecto.

Tim

Tampoco puede tener una altura negativa para las personas, pero eso no sería una barrera para mí para describir la altura como se distribuye normalmente si esa fuera una buena aproximación. Para el caso, ¿por qué usar cualquier distribución con límites infinitos para mediciones que solo pueden ser finitas? Como dice @Tim, todo es cuestión de aproximaciones aceptables dados los datos y el propósito.

Nick Cox

Estoy de acuerdo en que la distribución normal podría ser una buena aproximación para los datos limitados a veces, pero la pregunta era si los datos son normales o no.

Aksakal

La edad de los graduados del último año de la escuela secundaria podría distribuirse normalmente y también tomar valores negativos si la media se centra en @Tim mencionado.

ui_90jax