¿El uso de la desviación estándar se basa en el supuesto de una distribución normal?

9

Me pregunto si la desviación estándar siempre se basó en el supuesto de una distribución normal. En otras palabras, si la muestra no se distribuye normalmente, ¿debería considerarse un error utilizar la desviación estándar?

Dougal
fuente
3
Una distribución uniforme tiene una desviación estándar, ¿cómo podría ser esto un "error"?

Respuestas:

17

No. El uso de la desviación estándar no supone normalidad.

La varianza de una variable aleatoria se define como . Mientras exista la varianza, la desviación estándar también existe. La desviación estándar es la raíz cuadrada de la varianza.Var(X)=E[(XE[X])2]

Puede usar la varianza o la desviación estándar en cualquier momento que existan. La variación surge en innumerables situaciones.Var(X)

Hay teoremas especiales, lemas, etc., aunque para el caso especial donde sigue la distribución normal.X

Un uso común de la desviación estándar que depende de la normalidad:

Si sigue la distribución normal, entonces hay aproximadamente un 95% de probabilidad de que se encuentre dentro de dos desviaciones estándar de la media.XX

Esa afirmación es cierta si sigue la distribución normal (y varias otras) pero no es cierta en general.X

Un uso común de la varianza que no depende de la normalidad:

Sea una variable aleatoria con media y varianza . Definir para como variables aleatorias independientes, cada uno después de la distribución idéntica como .XE[X]=μVar(X)=σ2Xii=1,,nX

Defina la media muestral basada en observaciones como: n

X¯n=1ni=1nXi

Según el Teorema del límite central, converge hacia una variable aleatoria normalmente distribuida con media y varianza . (Más precisamente, converge en distribución a como ).X¯nμσ2nn(X¯nμ)N(0,σ2)n

La implicación práctica es que la media de la muestra para grandes puede ser tratada como variable aleatoria distribuida normalmente cuya varianza es una función de la varianza de . (Recordar ) Y este resultado no requiere que sea ​​normal. (Sin embargo, requiere una más baja para funcionar bien si está más cerca en cierto sentido de la distribución normal).X¯nnσ2nXVar(X)=σ2XnX

El Teorema del límite central es una herramienta omnipresente que utiliza la varianza de y no necesita que siga la distribución normal.XX

Matthew Gunn
fuente
44
La desigualdad de Chebyshev no es específica de la varianza: existe una versión igualmente útil para cada momento absoluto con un poder superior a . Por lo tanto, sugeriría buscar en otros lugares por qué SD es importante y (casi) universal, como el papel único que juega la variación en el Teorema del límite central. 1
whuber
@whuber Sí, había comenzado a escribir un ejemplo de CLT (y ahora lo he agregado). El CLT es una razón extremadamente práctica para preocuparse por la variación.
Matthew Gunn el
1
+1. Pero tenga en cuenta que si bien la varianza (junto con la media) da una descripción completa en el caso normal, para su distribución no normal esto podría no ser el caso, y otros d3scriptors de los datos podría ser mucho mejor
b kjetil Halvorsen
2

En la configuración estándar de IID, en condiciones de regularidad adecuadas, (así como ) es un estimador muy consistente de . Esto se sigue directamente de la Ley Fuerte de Números Grandes. No se necesita un supuesto de modelo normal.σ 2 M L V un r [ X i ]S2σ^ML2Var[Xi]

zen
fuente