¿Por qué la desviación estándar se define como sqrt de la varianza y no como el sqrt de la suma de cuadrados sobre N?

16

Hoy enseñé una clase introductoria de estadística y un estudiante se me ocurrió una pregunta, que reformulo aquí como: "¿Por qué la desviación estándar se define como sqrt de varianza y no como el sqrt de la suma de cuadrados sobre N?"

Definimos varianza poblacional: σ2=1N(xiμ)2

Y desviación estándar: σ=σ2=1N(xiμ)2 .

La interpretación podemos dar a σ es que da la desviación promedio de unidades en la población de la media poblacional de X .

Sin embargo, en la definición de sd dividimos el sqrt de la suma de cuadrados a través de N . La pregunta que plantea el estudiante es por qué no dividimos el sqrt de la suma de cuadrados porNlugar. Así llegamos a una fórmula competitiva:

σnew=1N(xiμ)2.
El estudiante argumentó que esta fórmula se parece más a una desviación "promedio" de la media que cuando se divide entreN como enσ.

Pensé que esta pregunta no es estúpida. Me gustaría dar una respuesta al alumno que va más allá de decir que el sd se define como sqrt de la varianza, que es la desviación cuadrática promedio. Dicho de otra manera, ¿por qué el estudiante debe usar la fórmula correcta y no seguir su idea?

Esta pregunta se relaciona con un hilo anterior y las respuestas proporcionadas aquí . Las respuestas van en tres direcciones:

  1. σ es la desviación raíz cuadrática media (RMS), no la desviación "típica" de la media (es decir,σnew ). Por lo tanto, se define de manera diferente.
  2. Tiene buenas propiedades matemáticas.
  3. Además, el sqrt devolvería las "unidades" a su escala original. Sin embargo, este también sería el caso de σnew , que se divide por N lugar.

Ambos puntos 1 y 2 son argumentos a favor del SD como RMS, pero no veo un argumento en contra del uso de σnew . ¿Cuáles serían los buenos argumentos para convencer a los estudiantes de nivel introductorio del uso de la distancia RMS promedio σ de la media?

tomka
fuente
2
Creo que la misma pregunta "¿Por qué la desviación estándar se define como ..." es difícil de responder. Las definiciones son solo convenciones de etiquetado arbitrario. No tienen que conformarse con por qué .
ttnphns
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"¿Podría ser que lo que está entre paréntesis se perdió de alguna manera en la pregunta?
ttnphns
1
Pero SD tiene una serie de propósitos; debe haber una mejor motivación que la que se define así. Eso sería útil, especialmente en la enseñanza de estudiantes universitarios. Puedo imaginar una motivación en el sentido de la desigualdad de Chebyshev (mínimo de proporción de casos en el ámbito de +/- un factor constante de SD).
tomka
2
No puedo responder porque su Q está en espera, pero intente esto: imagine que observa los valores 1 y 3 en proporciones aproximadamente iguales (arroje una moneda, , T = 1H=3T=1 ). Una "distancia típica" de observaciones de la media debería ser algo así como 1. Con su fórmula, considere lo que sucede con esta medida de distancia típica paranmuy, muy grande. En cada caso| xi- ˉ x | estará cerca de 1, por lo que su suma de cuadrados estará cerca den. El numerador estará cerca deSSE/nn|xix¯|n para que su fórmula se haga más y más pequeña a medida queaumentan, aunque la distancia típica de la media no cambia nn
Glen_b -Reinstate Monica
1
@whuber Hice otra actualización y espero que el punto que haga sea más claro ahora. Tenga en cuenta que estoy pidiendo consejos de enseñanza aquí además de hacer una pregunta sobre fundamentos de estadística. No estoy sugiriendo una fórmula alternativa, pero di un ejemplo de una situación en el aula de una buena pregunta de un estudiante a la que no tuve una respuesta inmediata. Si está de acuerdo, solicito amablemente liberar la pregunta ahora.
tomka

Respuestas:

12

Hay al menos tres problemas básicos que pueden explicarse fácilmente a los principiantes:

  1. El "nuevo" SD ni siquiera está definido para poblaciones infinitas. (Uno podría declararlo siempre igual a cero en tales casos, pero eso no lo haría más útil).

  2. El nuevo SD no se comporta de la manera que debería hacerlo un promedio bajo muestreo aleatorio.

  3. Aunque la nueva SD se puede usar con todo el rigor matemático para evaluar las desviaciones de una media (en muestras y poblaciones finitas), su interpretación es innecesariamente complicada.

1. La aplicabilidad de la nueva SD es limitada

El punto (1) podría llevarse a casa, incluso para aquellos que no están familiarizados con la integración, señalando que debido a que la varianza es claramente una media aritmética (de desviaciones al cuadrado), tiene una extensión útil para los modelos de poblaciones "infinitas" para las cuales el La intuición de la existencia de una media aritmética aún se mantiene. Por lo tanto, su raíz cuadrada, la SD habitual, está perfectamente bien definida en estos casos, también, y tan útil en su papel como una (reexpresión no lineal de) una varianza. Sin embargo, la nueva SD divide ese promedio por el arbitrariamente grande , haciendo problemática su generalización más allá de las poblaciones finitas y las muestras finitas: ¿qué debería1/ √?N ser llevado a la igualdad en tales casos?1/N

2. La nueva SD no es un promedio

Cualquier estadística digna del nombre "promedio" debe tener la propiedad de que converge con el valor de la población a medida que aumenta el tamaño de una muestra aleatoria de la población. Cualquier múltiplo fijo de la SD tendría esta propiedad, porque el multiplicador se aplicaría tanto a la computación de la SD de muestra como a la SD de la población. (Aunque no contradice directamente el argumento ofrecido por Alecos Papadopoulos, esta observación sugiere que el argumento es tangencial a los problemas reales). Sin embargo, el "nuevo" DE, que es igual a veces el habitual, obviamente converge a0en todas las circunstancias a medida que el tamaño de la muestraNcrece. Por lo tanto,aunque para cualquier tamaño de muestra fijoN,la nueva DE (adecuadamente interpretada) es una medida de variación perfectamente adecuada alrededor de la media,no puede considerarse justificadamente unamedidauniversalaplicable, con la misma interpretación, para todos los tamaños de muestra, ni tampoco correctamente ser llamado un "promedio" en cualquier sentido útil.1/N0NN

3. La nueva SD es complicada de interpretar y usar

Considere tomar muestras de (digamos) tamaño . La nueva SD en estos casos es 1 / N=4veces la desviación estándar usual. Por lo tanto, disfruta de interpretaciones comparables, tales como un análogo de la regla 68-95-99 (alrededor de 68% de los datos debe estar dentro dedosnuevas SDs de la media, 95% de ellos dentro decuatronuevos SDs de la media,etc.; y las versiones de las desigualdades clásicas, como la de Chebychev, se mantendrán (no más de1/k2de los datos pueden estar a más de2knuevas SD fuera de su media); y el Teorema del límite central puede reexpresarse de manera análoga en términos de la nueva SD (uno se divide por1/N=1/21/k22k veces la nueva SD para estandarizar la variable). Por lo tanto, en este sentido específico y claramente limitado,no hay nada de malo en la propuesta del alumno. Sin embargo, la dificultad es que todas estas declaraciones contienen, de manera bastante explícita, factores deN. Aunque no hay ningún problema matemático inherente con esto, ciertamente complica las declaraciones y la interpretación de las leyes más fundamentales de la estadística.N=2


Es de notar que Gauss y otros originalmente parametrizaron la distribución gaussiana por , efectivamente usando2σ veces la DE para cuantificar la propagación de una variable aleatoria normal. Este uso histórico demuestra la propiedad y la eficacia del uso de otrosmúltiplosfijosde la SD en su lugar.2

whuber
fuente
Gracias - una pregunta de vuelta (relacionada con su punto 2): hace no converge a0 amedida queNcrece, mientras que11N0N obviamente lo hace? 1N
tomka
2
Estamos comparando la SD de la muestra con veces la SD de la muestra (la "nueva SD"). A medida queNcrece, la DE de la muestra se aproxima a unaconstante(generalmente) no nulaigual a la DE de la población. Por lo tanto1/1/NN veces la muestra SD converge a cero. 1/N
whuber
Este es un material estándar: consulte cualquier libro de texto riguroso en estadística matemática (que, para ser justos, no sería accesible para la mayoría de los principiantes). Sin embargo, los resultados importantes para mi respuesta se derivan de una declaración más débil e intuitivamente obvia. Fije un número y deje que σ sea ​​la población SD. Considere la posibilidad de que la muestra SD se encuentre entre σ / A y A σ . Es suficiente que esta posibilidad llegue a cero a medida que aumenta el tamaño de la muestra N. Esto solo muestra que 1 / A>1σσ/AAσN veces la muestra SD converge a0casi seguramente, lo que demuestra el punto (2) en la respuesta. 1/N0
whuber
+1, además de que no es invariante de escala, etc., (una condición necesaria para un momento de esta forma)
Nikos M.
@ Nikos Gracias, pero ¿qué no es invariante de escala? Ambos ySDcambian cuando los datos se reescalan. SD/NSD
whuber
5

Suponga que su muestra contiene solo dos realizaciones. Supongo que una medida intuitiva de dispersión sería la desviación absoluta promedio (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

Por lo tanto, nos gustaría que otras medidas de dispersión en el mismo nivel de unidades de medida estén "cerca" de lo anterior.

La varianza muestral se define como

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call it q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.

Alecos Papadopoulos
fuente
1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber
2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos