¿Por qué la desviación estándar se define como sqrt de la varianza y no como el sqrt de la suma de cuadrados sobre N?

Hoy enseñé una clase introductoria de estadística y un estudiante se me ocurrió una pregunta, que reformulo aquí como: "¿Por qué la desviación estándar se define como sqrt de varianza y no como el sqrt de la suma de cuadrados sobre N?"

Definimos varianza poblacional: $\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2}$

Y desviación estándar: $\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}}$ .

La interpretación podemos dar a $\sigma$ es que da la desviación promedio de unidades en la población de la media poblacional de $X$ .

Sin embargo, en la definición de sd dividimos el sqrt de la suma de cuadrados a través de $\sqrt{N}$ . La pregunta que plantea el estudiante es por qué no dividimos el sqrt de la suma de cuadrados por $N$ lugar. Así llegamos a una fórmula competitiva:

σ_{n e w} = \frac{1}{N} \sqrt{\sum (x_{i} - μ)^{2}} .

$\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.$ El estudiante argumentó que esta fórmula se parece más a una desviación "promedio" de la media que cuando se divide entre

\sqrt{N}

$\sqrt{N}$ como en

σ

$\sigma$ .

Pensé que esta pregunta no es estúpida. Me gustaría dar una respuesta al alumno que va más allá de decir que el sd se define como sqrt de la varianza, que es la desviación cuadrática promedio. Dicho de otra manera, ¿por qué el estudiante debe usar la fórmula correcta y no seguir su idea?

Esta pregunta se relaciona con un hilo anterior y las respuestas proporcionadas aquí . Las respuestas van en tres direcciones:

$\sigma$ es la desviación raíz cuadrática media (RMS), no la desviación "típica" de la media (es decir, $\sigma_{new}$ ). Por lo tanto, se define de manera diferente.
Tiene buenas propiedades matemáticas.
Además, el sqrt devolvería las "unidades" a su escala original. Sin embargo, este también sería el caso de $\sigma_{new}$ , que se divide por $N$ lugar.

Ambos puntos 1 y 2 son argumentos a favor del SD como RMS, pero no veo un argumento en contra del uso de $\sigma_{new}$ . ¿Cuáles serían los buenos argumentos para convencer a los estudiantes de nivel introductorio del uso de la distancia RMS promedio $\sigma$ de la media?

variance standard-deviation intuition teaching tomka
fuente

Creo que la misma pregunta "¿Por qué la desviación estándar se define como ..." es difícil de responder. Las definiciones son solo convenciones de etiquetado arbitrario. No tienen que conformarse con por qué .

ttnphns

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"¿Podría ser que lo que está entre paréntesis se perdió de alguna manera en la pregunta?

ttnphns

Pero SD tiene una serie de propósitos; debe haber una mejor motivación que la que se define así. Eso sería útil, especialmente en la enseñanza de estudiantes universitarios. Puedo imaginar una motivación en el sentido de la desigualdad de Chebyshev (mínimo de proporción de casos en el ámbito de +/- un factor constante de SD).

tomka

No puedo responder porque su Q está en espera, pero intente esto: imagine que observa los valores 1 y 3 en proporciones aproximadamente iguales (arroje una moneda,

H = 3

$H=3$

T = 1

$T=1$ ). Una "distancia típica" de observaciones de la media debería ser algo así como 1. Con su

fórmula, considere lo que sucede con esta medida de distancia típica para

muy, muy grande. En cada caso

estará cerca de 1, por lo que su suma de cuadrados estará cerca de

. El numerador estará cerca de

\sqrt{S S E} / n

$\sqrt{SSE}/n$

n

$n$

| x_{i} - \bar{x} |

$|x_i-\bar{x}|$

n

$n$

para que su fórmula se haga más y más pequeña a medida queaumenta

, aunque la distancia típica de la media no cambia

\sqrt{n}

$\sqrt{n}$

n

$n$

Glen_b -Reinstate Monica

@whuber Hice otra actualización y espero que el punto que haga sea más claro ahora. Tenga en cuenta que estoy pidiendo consejos de enseñanza aquí además de hacer una pregunta sobre fundamentos de estadística. No estoy sugiriendo una fórmula alternativa, pero di un ejemplo de una situación en el aula de una buena pregunta de un estudiante a la que no tuve una respuesta inmediata. Si está de acuerdo, solicito amablemente liberar la pregunta ahora.

tomka

Respuestas:

Hay al menos tres problemas básicos que pueden explicarse fácilmente a los principiantes:

El "nuevo" SD ni siquiera está definido para poblaciones infinitas. (Uno podría declararlo siempre igual a cero en tales casos, pero eso no lo haría más útil).
El nuevo SD no se comporta de la manera que debería hacerlo un promedio bajo muestreo aleatorio.
Aunque la nueva SD se puede usar con todo el rigor matemático para evaluar las desviaciones de una media (en muestras y poblaciones finitas), su interpretación es innecesariamente complicada.

1. La aplicabilidad de la nueva SD es limitada

El punto (1) podría llevarse a casa, incluso para aquellos que no están familiarizados con la integración, señalando que debido a que la varianza es claramente una media aritmética (de desviaciones al cuadrado), tiene una extensión útil para los modelos de poblaciones "infinitas" para las cuales el La intuición de la existencia de una media aritmética aún se mantiene. Por lo tanto, su raíz cuadrada, la SD habitual, está perfectamente bien definida en estos casos, también, y tan útil en su papel como una (reexpresión no lineal de) una varianza. Sin embargo, la nueva SD divide ese promedio por el arbitrariamente grande , haciendo problemática su generalización más allá de las poblaciones finitas y las muestras finitas: ¿qué debería $\sqrt{N}$ ser llevado a la igualdad en tales casos? $1/\sqrt{N}$

2. La nueva SD no es un promedio

Cualquier estadística digna del nombre "promedio" debe tener la propiedad de que converge con el valor de la población a medida que aumenta el tamaño de una muestra aleatoria de la población. Cualquier múltiplo fijo de la SD tendría esta propiedad, porque el multiplicador se aplicaría tanto a la computación de la SD de muestra como a la SD de la población. (Aunque no contradice directamente el argumento ofrecido por Alecos Papadopoulos, esta observación sugiere que el argumento es tangencial a los problemas reales). Sin embargo, el "nuevo" DE, que es igual a veces el habitual, obviamente converge aen todas las circunstancias a medida que el tamaño de la muestracrece. Por lo tanto,aunque para cualquier tamaño de muestra fijola nueva DE (adecuadamente interpretada) es una medida de variación perfectamente adecuada alrededor de la media,no puede considerarse justificadamente unamedidauniversalaplicable, con la misma interpretación, para todos los tamaños de muestra, ni tampoco correctamente ser llamado un "promedio" en cualquier sentido útil. $1/\sqrt{N}$ $0$ $N$ $N$

3. La nueva SD es complicada de interpretar y usar

Considere tomar muestras de (digamos) tamaño . La nueva SD en estos casos es $N=4$ veces la desviación estándar usual. Por lo tanto, disfruta de interpretaciones comparables, tales como un análogo de la regla 68-95-99 (alrededor de 68% de los datos debe estar dentro dedosnuevas SDs de la media, 95% de ellos dentro decuatronuevos SDs de la media,etc.; y las versiones de las desigualdades clásicas, como la de Chebychev, se mantendrán (no más dede los datos pueden estar a más denuevas SD fuera de su media); y el Teorema del límite central puede reexpresarse de manera análoga en términos de la nueva SD (uno se divide por $1/\sqrt{N}=1/2$ $1/k^2$ $2k$ veces la nueva SD para estandarizar la variable). Por lo tanto, en este sentido específico y claramente limitado,no hay nada de malo en la propuesta del alumno. Sin embargo, la dificultad es que todas estas declaraciones contienen, de manera bastante explícita, factores de $\sqrt{N}$ . Aunque no hay ningún problema matemático inherente con esto, ciertamente complica las declaraciones y la interpretación de las leyes más fundamentales de la estadística. $\sqrt{N}=2$

Es de notar que Gauss y otros originalmente parametrizaron la distribución gaussiana por , efectivamente usando $\sqrt{2}\sigma$ veces la DE para cuantificar la propagación de una variable aleatoria normal. Este uso histórico demuestra la propiedad y la eficacia del uso de otrosmúltiplosfijosde la SD en su lugar. $\sqrt{2}$

whuber
fuente

Gracias - una pregunta de vuelta (relacionada con su punto 2): hace

no converge a

medida que

crece, mientras que

\frac{1}{\sqrt{N}}

$\frac{1}{\sqrt{N}}$

0

$0$

N

$N$

obviamente lo hace?

\frac{1}{N}

$\frac{1}{N}$

tomka

Estamos comparando la SD de la muestra con

veces la SD de la muestra (la "nueva SD"). A medida que

crece, la DE de la muestra se aproxima a unaconstante(generalmente) no nulaigual a la DE de la población. Por lo tanto

1 / \sqrt{N}

$1/\sqrt{N}$

N

$N$

veces la muestra SD converge a cero.

1 / \sqrt{N}

$1/\sqrt{N}$

whuber

Este es un material estándar: consulte cualquier libro de texto riguroso en estadística matemática (que, para ser justos, no sería accesible para la mayoría de los principiantes). Sin embargo, los resultados importantes para mi respuesta se derivan de una declaración más débil e intuitivamente obvia. Fije un número

y deje que

sea la población SD. Considere la posibilidad de que la muestra SD se encuentre entre

. Es suficiente que esta posibilidad llegue a cero a medida que aumenta el tamaño de la muestra

Esto solo muestra que

A > 1

$A \gt 1$

σ

$\sigma$

σ / A

$\sigma/A$

A σ

$A\sigma$

N

$N$

veces la muestra SD converge a

casi seguramente, lo que demuestra el punto (2) en la respuesta.

1 / \sqrt{N}

$1/\sqrt{N}$

0

$0$

whuber

+1, además de que no es invariante de escala, etc., (una condición necesaria para un momento de esta forma)

Nikos M.

@ Nikos Gracias, pero ¿qué no es invariante de escala? Ambos

cambian cuando los datos se reescalan.

S D / \sqrt{N}

$SD/\sqrt{N}$

S D

$SD$

whuber

Suponga que su muestra contiene solo dos realizaciones. Supongo que una medida intuitiva de dispersión sería la desviación absoluta promedio (AAD)

A A D = \frac{1}{2} (| x_{1} - \bar{x} | + | x_{2} - \bar{x} |) = . . . = \frac{| x_{1} - x_{2} |}{2}

$AAD = \frac 12 (|x_1-\bar x| + |x_2-\bar x|) = ...= \frac {|x_1-x_2|}{2}$

Por lo tanto, nos gustaría que otras medidas de dispersión en el mismo nivel de unidades de medida estén "cerca" de lo anterior.

La varianza muestral se define como

σ^{2} = \frac{1}{2} [(x_{1} - \bar{x})^{2} + (x_{2} - \bar{x})^{2}] = \frac{1}{2} [{(\frac{x_{1} - x_{2}}{2})}^{2} + {(\frac{x_{2} - x_{1}}{2})}^{2}]

$\sigma^2=\frac{1}{2}[(x_1-\bar x)^2 + (x_2-\bar x)^2] = \frac 12 \left[\left(\frac {x_1-x_2}{2}\right)^2 + \left(\frac {x_2-x_1}{2}\right)^2\right]$

= \frac{1}{2} [\frac{(x_{1} - x_{2})^{2}}{4} + \frac{(x_{1} - x_{2})^{2}}{4}] = \frac{1}{2} \frac{(x_{1} - x_{2})^{2}}{2}

$=\frac 12 \left[\frac {(x_1-x_2)^2}{4} + \frac {(x_1-x_2)^2}{4}\right]=\frac 12 \frac {(x_1-x_2)^2}{2}$

= \frac{1}{2} \cdot \frac{| x_{1} - x_{2} |^{2}}{2}

$=\frac 12\cdot \frac {|x_1-x_2|^2}{2}$

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it $q$

q \equiv \frac{1}{2} \cdot \sqrt{\frac{| x_{1} - x_{2} |^{2}}{2}} = \frac{1}{2} \frac{| x_{1} - x_{2} |}{\sqrt{2}} = \frac{1}{\sqrt{2}} A A D < A A D

$q \equiv \frac 12\cdot \sqrt {\frac {|x_1-x_2|^2}{2}} = \frac 12 \frac {|x_1-x_2|}{\sqrt 2} = \frac 1{\sqrt 2} AAD < AAD$

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

S D \equiv \sqrt{σ^{2}} = \frac{| x_{1} - x_{2} |}{2} = A A D

$SD \equiv \sqrt {\sigma^2} = \frac {|x_1-x_2|}{2} =AAD$

Since we want to "stay as close as possible" to the intuitive measure, we should use $SD$ .

ADDENDUM
Let's consider now a sample of size $n$ We have

n \cdot A A D = \sum_{i = 1}^{n} | x_{i} - \bar{x} |

$n\cdot AAD = \sum_{i=1}^n |x_i-\bar x|$

and

n \cdot Var (X) = \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = \sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2}

$n \cdot \text{Var}(X) = \sum_{i=1}^n (x_i-\bar x)^2 = \sum_{i=1}^n |x_i-\bar x|^2$

we can write the right-hand side of the variance expression as

\sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2} = {(\sum_{i = 1}^{n} | x_{i} - \bar{x} |)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$\sum_{i=1}^n |x_i-\bar x|^2 = \left(\sum_{i=1}^n |x_i-\bar x|\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

= {(n \cdot A A D)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$= \left (n\cdot AAD\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

Then the dispersion measure $q_n$ will be

q_{n} \equiv \frac{1}{n} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$q_n \equiv \frac 1n \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[A A D^{2} - \frac{1}{n^{2}} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[AAD^2 - \frac 1{n^2} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Now think informally: note that $\sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$ contains $n^2-n$ terms, and so divided by $n^2$ will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in $AAD^2$ : this is a primitive way to "sense" why $q_n$ will tend to zero as $n$ grows large. On the other hand the Standard Deviation as defined would be

S D \equiv \frac{1}{\sqrt{n}} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$SD \equiv \frac 1{\sqrt n} \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[n \cdot A A D^{2} - \frac{1}{n} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[n\cdot AAD^2 - \frac 1{n} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Continuing are informal thinking, the first term gives us $n$ "terms in the 2nd power", while the second term gives us $n-1$ "terms in the second power" . So we will be left eventually with one such term, as $n$ grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any $n$ , as well as for the case when $n\rightarrow \infty$ .

Alecos Papadopoulos
fuente

Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).

whuber

@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!

Alecos Papadopoulos