Intuición detrás de la desviación estándar

26

Estoy tratando de obtener una mejor comprensión intuitiva de la desviación estándar.

Por lo que entiendo, es representativo del promedio de las diferencias de un conjunto de observaciones en un conjunto de datos de la media de ese conjunto de datos. Sin embargo, NO es realmente igual a los promedios de las diferencias, ya que da más peso a las observaciones más alejadas de la media.

Digamos que tengo la siguiente población de valores: $\{1, 3, 5, 7, 9\}$

La media es . $5$

Si tomo una medida de propagación basada en el valor absoluto obtengo

\frac{\sum_{i = 1}^{5} | x_{i} - μ |}{5} = 2.4

$\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4$

Si tomo una medida de propagación basada en la desviación estándar, obtengo

\sqrt{\frac{\sum_{i = 1}^{5} (x_{i} - μ)^{2}}{5}} = 2.83

$\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83$

El resultado que utiliza la desviación estándar es mayor, como se esperaba, debido al peso adicional que otorga a los valores más alejados de la media.

Pero si me acabaran de decir que estaba tratando con una población con una media de y una desviación estándar de ¿cómo inferiría que la población se componía de valores como ? Parece que la cifra de es muy arbitraria ... No veo cómo se supone que debes interpretarla. ¿ significa que los valores están muy extendidos o están todos agrupados estrechamente alrededor de la media ... $5$ $2.83$ $\{1, 3, 5, 7, 9\}$ $2.83$ $2.83$

Cuando se le presenta una declaración de que se trata de una población con una media de y una desviación estándar de ¿qué le dice eso sobre la población? $5$ $2.83$

standard-deviation intuition estampido supersónico
fuente

2

Esta pregunta está relacionada (aunque no es idéntica) con stats.stackexchange.com/q/81986/3277 y otra más vinculada a ella.

ttnphns

1

Le indica una distancia "típica" de la media (la distancia RMS). Lo que hace que "grande" o "pequeño" dependa de sus criterios. Si está tratando de medir tolerancias de ingeniería, podría ser enorme. En otros contextos, la misma desviación estándar puede considerarse bastante pequeña.

Glen_b -Reinstale a Monica

13

Mi intuición es que la desviación estándar es: una medida de propagación de los datos.

Tiene un buen punto de que si es ancho o ajustado depende de cuál sea nuestro supuesto subyacente para la distribución de los datos.

Advertencia: Una medida de propagación es más útil cuando la distribución de sus datos es simétrica alrededor de la media y tiene una variación relativamente cercana a la de la distribución Normal. (Esto significa que es aproximadamente Normal).

En el caso de que los datos sean aproximadamente normales, la desviación estándar tiene una interpretación canónica:

Región: media muestral +/- 1 desviación estándar, contiene aproximadamente el 68% de los datos
Región: muestra media +/- 2 desviación estándar, contiene aproximadamente el 95% de los datos
Región: media muestral +/- 3 desviación estándar, contiene aproximadamente el 99% de los datos

(ver primer gráfico en Wiki )

Esto significa que si sabemos que la media de la población es 5 y la desviación estándar es 2.83 y suponemos que la distribución es aproximadamente Normal, le diría que estoy razonablemente seguro de que si hacemos (una gran) muchas observaciones, solo el 5% lo hará ser menor que 0.4 = 5 - 2 * 2.3 o mayor que 9.6 = 5 + 2 * 2.3.

Observe cuál es el impacto de la desviación estándar en nuestro intervalo de confianza. (cuanto más extendido, más incertidumbre)

Además, en el caso general en el que los datos ni siquiera son aproximadamente normales, sino simétricos, usted sabe que existen algunos $\alpha$ para los cuales:

Región: media muestral +/- $\alpha$ desviación estándar, contiene aproximadamente el 95% de los datos

Puede aprender el de una submuestra o asumir que $\alpha$ $\alpha=2$ y esto a menudo le da una buena regla general para calcular en su cabeza qué observaciones futuras esperar o cuáles de las nuevas observaciones pueden considerarse como valores atípicos. (¡tenga en cuenta la advertencia!)

No veo cómo se supone que debes interpretarlo. ¿2,83 significa que los valores están muy extendidos o están todos agrupados estrechamente alrededor de la media ...

Supongo que cada pregunta que se haga "amplia o estrecha" también debe contener: "¿en relación con qué?". Una sugerencia podría ser utilizar una distribución conocida como referencia. Dependiendo del contexto, podría ser útil pensar: "¿Es mucho más amplio o más ajustado que un Normal / Poisson?".

EDITAR: Basado en una pista útil en los comentarios, un aspecto más sobre la desviación estándar como medida de distancia.

Otra intuición más de la utilidad de la desviación estándar es que es una medida de distancia entre los datos de la muestra y su media : $s_N$ $x_1,… , x_N$ $\bar{x}$

$s_N = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}$

A modo de comparación, el error cuadrático medio (MSE), una de las medidas de error más populares en estadística, se define como:

$\operatorname{MSE}=\frac{1}{n}\sum_{i=1}^n(\hat{Y_i} - Y_i)^2$

Se pueden plantear las preguntas ¿por qué funciona la distancia anterior? ¿Por qué distancias cuadradas, y no distancias absolutas, por ejemplo? ¿Y por qué estamos tomando la raíz cuadrada?

Tener funciones de distancia cuadrática, o error, tiene la ventaja de que podemos diferenciarlas y minimizarlas fácilmente. En lo que respecta a la raíz cuadrada, se suma a la interpretabilidad, ya que convierte el error nuevamente en la escala de nuestros datos observados.

significado
fuente

¿Por qué dice que una medida de propagación es más "útil" cuando los datos son normales? Me parece que cualquier conjunto de datos tiene una extensión y la desviación estándar es un resumen de la extensión, incluso si no captura la forma de la extensión.

Michael Lew

Claro, tienes razón. Pero no estaba afirmando que la desviación estándar depende de la forma de la distribución de ninguna manera. Simplemente señalando que SI tiene algún conocimiento sobre la forma (o está listo para hacer esta suposición), generalmente es una información mucho más útil. De manera similar, la media muestral es un buen descriptor de sus datos, SI puede hacer ciertas suposiciones generales sobre la distribución.

significado del

Mi razón favorita para usar el cuadrado en lugar del valor absoluto es que es un logaritmo de probabilidad de algunos gaussianos. Entonces, si cree que los errores son de naturaleza gaussiana, y que los bits son una buena forma de medir la información, entonces tiene sentido usar el error al cuadrado.

qbolec

5

Puede ser útil darse cuenta de que la media es análoga a la centro de masa . La varianza es el momento de inercia . La desviación estándar es el radio de giro .

Para una perspectiva histórica, eche un vistazo a:

George Airy (1875) Sobre la teoría algebraica y numérica de los errores de observaciones y la combinación de observaciones.

Karl Pearson (1894) Contribuciones a la teoría matemática de la evolución.

Este gráfico de Airy 1875 muestra las diversas medidas de desviación que se pueden convertir fácilmente (página 17). La desviación estándar se llama "error del cuadrado medio". También se discute en las páginas 20-21 y justifica su uso en la página 48, mostrando que es más fácil calcularlo a mano porque no hay necesidad de calcular por separado los errores negativos y positivos. El término desviación estándar fue introducido por Pearson en el documento citado anteriormente en la página 75.

ingrese la descripción de la imagen aquí

Como comentario: tenga en cuenta que la utilidad de la desviación estándar depende de la aplicabilidad de la "ley de errores", también conocida como la "curva normal", que surge de "una gran cantidad de causas independientes de error" (Airy 1875 pg 7) No hay razón para esperar que las desviaciones de una media grupal de cada individuo deban seguir esta ley. En muchos casos para sistemas biológicos, una distribución logarítmica normal es mejor suposición que lo normal. Ver:

Limpert y otros (2001) Distribuciones log-normales en las ciencias: claves y pistas

Es aún más cuestionable si es apropiado tratar la variación individual como ruido, ya que el proceso de generación de datos actúa al nivel del individuo y no del grupo.

Lívido
fuente

3

La desviación estándar, de hecho, da más peso a los que están más lejos de la media, porque es la raíz cuadrada del promedio de las distancias al cuadrado. Las razones para usar esto (en lugar de la desviación absoluta media que propone, o la desviación absoluta media, que se usa en estadísticas robustas) se deben en parte al hecho de que el cálculo es más fácil con los polinomios que con los valores absolutos. Sin embargo, a menudo, queremos enfatizar los valores extremos.

En cuanto a su pregunta sobre el significado intuitivo, se desarrolla con el tiempo. Tiene razón en que más de un conjunto de números pueden tener la misma media y sd; Esto se debe a que la media y SD son solo dos piezas de información, y el conjunto de datos puede ser de 5 piezas (como 1,3,5,7,9) o mucho más.

Si un promedio de 5 y SD de 2.83 es "ancho" o "estrecho" depende del campo en el que esté trabajando.

Cuando solo tiene 5 números, es fácil mirar la lista completa; cuando tiene muchos números, las formas más intuitivas de pensar acerca de la propagación incluyen elementos como el resumen de cinco números o, mejor aún, gráficos como una gráfica de densidad.

Peter Flom - Restablece a Monica
fuente

2

La desviación estándar mide la distancia de su población de la media como variables aleatorias.

$X: [0,1] \rightarrow \mathbb{R}$

X (t) = {\begin{cases} 1 & 0 0 \leq t < \frac{1}{5 5} \\ 3 & \frac{1}{5 5} \leq t < \frac{2}{5 5} \\ 5 5 & \frac{2}{5 5} \leq t < \frac{3}{5 5} \\ 7 7 & \frac{3}{5 5} \leq t < \frac{4 4}{5 5} \\ 9 9 & \frac{4 4}{5 5} \leq t \leq 1 \end{cases}

$X(t) = \begin{cases} 1 & 0 \leq t < \frac{1}{5} \\ 3 & \frac{1}{5} \leq t < \frac{2}{5}\\ 5 & \frac{2}{5} \leq t < \frac{3}{5}\\ 7 & \frac{3}{5} \leq t < \frac{4}{5}\\ 9 & \frac{4}{5} \leq t \leq 1 \end{cases}$

La razón por la que pasamos a las funciones y a la teoría de la medida es porque necesitamos tener una forma sistemática de discutir cómo dos espacios de probabilidad son iguales hasta los eventos que tienen cero posibilidades de ocurrir. Ahora que nos hemos movido a las funciones, necesitamos una sensación de distancia.

El | El | Y El | {El |}_{pags} = {(\int_{0 0}^{1} El | Y (t) {El |}^{pags} re t)}^{1 / / pags}

$||Y||_p = \left(\int_{0}^1|Y(t)|^pdt\right)^{1/p}$

Y : [0, 1] \to R

$Y: [0,1] \rightarrow \mathbb{R}$

1 \leq p < \infty

$1 \leq p < \infty$

d_{p} (Y, Z) = | | X - Z | |_{p}

$d_p(Y,Z) = ||X - Z||_p$

$p=1$

{re}_{1} (X, 5 5) = El | El | X - \underset{_ _}{5 5} El | {El |}_{1} = 2.4.

$d_1(X,5) = ||X - \underline{5} ||_1 = 2.4.$

p = 2

$p=2$

{re}_{2} (X, 5 5) = El | El | X - \underset{_ _}{5 5} El | {El |}_{2} = 2.83.

$d_2(X,5) = ||X-\underline{5}||_2 = 2.83.$

aquí $\underline{5}$ denota la función constante $t \mapsto 5$ .

Comprender el significado de la desviación estándar es realmente comprender el significado de la función de distancia $d_2$ y comprender por qué es, en muchos sentidos, la mejor medida de distancia entre funciones.

SomeEE
fuente

Esta explicación incluye algunas construcciones que no parecen "intuitivas". La principal es la aparición injustificada de una función definida en

[0, 1]

$[0,1]$ , un intervalo que no tiene nada que ver con la configuración. (Es natural definir

X : {1, 3, 5, 7, 9} \to R

$X:\{1,3,5,7,9\}\to\mathbb{R}$ como

X (i) = i

$X(i)=i$ donde el álgebra es el conjunto de poder de

{1, 3, 5, 7, 9}

$\{1,3,5,7,9\}$ .) Además, interpretar expresiones como "

| | X - 5 | |_{1}

$||X-5||_1$ "es algo problemático porque"

5

$5$ "Representa un número - la media de la población -. No es una variable aleatoria Al final, después de que se introdujo toda esta maquinaria, la cuestión se actualiza pero en realidad no respondió.

whuber

Sí, la variable aleatoria que enumeró es estándar para aquellos que se sienten cómodos con la teoría de la medida. Tenía la esperanza de reducirlo a la comprensión de las funciones y la integración para personas con solo antecedentes de cálculo. Reescribiré la media como una función.

SomeEE

Además, en el sentido de que es una pregunta reformulada, ¿sugiere incluir comentarios sobre por qué?

d_{2}

$d_2$ Cuál es la mejor medida de distancia entre funciones?

SomeEE

La pregunta pide intuición para comprender la desviación estándar. Has explicado cómo es el

L^{2}

$L^2$ norma en algún espacio de funciones. Aunque eso proporciona otra formalización matemática (y sería una intuición adecuada para un matemático que de otro modo ignoraría la desviación estándar), parece no llegar a lo que solicitaba el póster original. Lo que sería más bienvenido es un párrafo de seguimiento que explique el "significado de la función de distancia

d_{2}

$d_2$ "y elaborando, aunque sea un poco, los sentidos en los que es la" mejor "medida de distancia.

whuber

Intuición detrás de la desviación estándar

Respuestas: