Hoy enseñé una clase introductoria de estadística y un estudiante se me ocurrió una pregunta, que reformulo aquí como: "¿Por qué la desviación estándar se define como sqrt de varianza y no como el sqrt de la suma de cuadrados sobre N?"
Definimos varianza poblacional:
Y desviación estándar: .
La interpretación podemos dar a es que da la desviación promedio de unidades en la población de la media poblacional de .
Sin embargo, en la definición de sd dividimos el sqrt de la suma de cuadrados a través de . La pregunta que plantea el estudiante es por qué no dividimos el sqrt de la suma de cuadrados porlugar. Así llegamos a una fórmula competitiva:
Pensé que esta pregunta no es estúpida. Me gustaría dar una respuesta al alumno que va más allá de decir que el sd se define como sqrt de la varianza, que es la desviación cuadrática promedio. Dicho de otra manera, ¿por qué el estudiante debe usar la fórmula correcta y no seguir su idea?
Esta pregunta se relaciona con un hilo anterior y las respuestas proporcionadas aquí . Las respuestas van en tres direcciones:
- es la desviación raíz cuadrática media (RMS), no la desviación "típica" de la media (es decir, ). Por lo tanto, se define de manera diferente.
- Tiene buenas propiedades matemáticas.
- Además, el sqrt devolvería las "unidades" a su escala original. Sin embargo, este también sería el caso de , que se divide por lugar.
Ambos puntos 1 y 2 son argumentos a favor del SD como RMS, pero no veo un argumento en contra del uso de . ¿Cuáles serían los buenos argumentos para convencer a los estudiantes de nivel introductorio del uso de la distancia RMS promedio de la media?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
¿Podría ser que lo que está entre paréntesis se perdió de alguna manera en la pregunta?Respuestas:
Hay al menos tres problemas básicos que pueden explicarse fácilmente a los principiantes:
El "nuevo" SD ni siquiera está definido para poblaciones infinitas. (Uno podría declararlo siempre igual a cero en tales casos, pero eso no lo haría más útil).
El nuevo SD no se comporta de la manera que debería hacerlo un promedio bajo muestreo aleatorio.
Aunque la nueva SD se puede usar con todo el rigor matemático para evaluar las desviaciones de una media (en muestras y poblaciones finitas), su interpretación es innecesariamente complicada.
1. La aplicabilidad de la nueva SD es limitada
El punto (1) podría llevarse a casa, incluso para aquellos que no están familiarizados con la integración, señalando que debido a que la varianza es claramente una media aritmética (de desviaciones al cuadrado), tiene una extensión útil para los modelos de poblaciones "infinitas" para las cuales el La intuición de la existencia de una media aritmética aún se mantiene. Por lo tanto, su raíz cuadrada, la SD habitual, está perfectamente bien definida en estos casos, también, y tan útil en su papel como una (reexpresión no lineal de) una varianza. Sin embargo, la nueva SD divide ese promedio por el √ arbitrariamente grande , haciendo problemática su generalización más allá de las poblaciones finitas y las muestras finitas: ¿qué debería1/ √?N−−√ ser llevado a la igualdad en tales casos?1/N−−√
2. La nueva SD no es un promedio
Cualquier estadística digna del nombre "promedio" debe tener la propiedad de que converge con el valor de la población a medida que aumenta el tamaño de una muestra aleatoria de la población. Cualquier múltiplo fijo de la SD tendría esta propiedad, porque el multiplicador se aplicaría tanto a la computación de la SD de muestra como a la SD de la población. (Aunque no contradice directamente el argumento ofrecido por Alecos Papadopoulos, esta observación sugiere que el argumento es tangencial a los problemas reales). Sin embargo, el "nuevo" DE, que es igual a veces el habitual, obviamente converge a0en todas las circunstancias a medida que el tamaño de la muestraNcrece. Por lo tanto,aunque para cualquier tamaño de muestra fijoN,la nueva DE (adecuadamente interpretada) es una medida de variación perfectamente adecuada alrededor de la media,no puede considerarse justificadamente unamedidauniversalaplicable, con la misma interpretación, para todos los tamaños de muestra, ni tampoco correctamente ser llamado un "promedio" en cualquier sentido útil.1/N−−√ 0 N N
3. La nueva SD es complicada de interpretar y usar
Considere tomar muestras de (digamos) tamaño . La nueva SD en estos casos es 1 / √N=4 veces la desviación estándar usual. Por lo tanto, disfruta de interpretaciones comparables, tales como un análogo de la regla 68-95-99 (alrededor de 68% de los datos debe estar dentro dedosnuevas SDs de la media, 95% de ellos dentro decuatronuevos SDs de la media,etc.; y las versiones de las desigualdades clásicas, como la de Chebychev, se mantendrán (no más de1/k2de los datos pueden estar a más de2knuevas SD fuera de su media); y el Teorema del límite central puede reexpresarse de manera análoga en términos de la nueva SD (uno se divide por √1/N−−√=1/2 1/k2 2k veces la nueva SD para estandarizar la variable). Por lo tanto, en este sentido específico y claramente limitado,no hay nada de malo en la propuesta del alumno. Sin embargo, la dificultad es que todas estas declaraciones contienen, de manera bastante explícita, factores de √N−−√ . Aunque no hay ningún problema matemático inherente con esto, ciertamente complica las declaraciones y la interpretación de las leyes más fundamentales de la estadística.N−−√=2
Es de notar que Gauss y otros originalmente parametrizaron la distribución gaussiana por , efectivamente usando √2–√σ veces la DE para cuantificar la propagación de una variable aleatoria normal. Este uso histórico demuestra la propiedad y la eficacia del uso de otrosmúltiplosfijosde la SD en su lugar.2–√
fuente
Suponga que su muestra contiene solo dos realizaciones. Supongo que una medida intuitiva de dispersión sería la desviación absoluta promedio (AAD)
Por lo tanto, nos gustaría que otras medidas de dispersión en el mismo nivel de unidades de medida estén "cerca" de lo anterior.
La varianza muestral se define como
To return to the original units of measurement, if we did as the student wondered/suggested,we would obtain the measure, call itq
i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,
Since we want to "stay as close as possible" to the intuitive measure, we should useSD .
ADDENDUMn We have
Let's consider now a sample of size
and
we can write the right-hand side of the variance expression as
Then the dispersion measureqn will be
Now think informally: note that∑j≠i|xi−x¯||xj−x¯| contains n2−n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2 : this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be
Continuing are informal thinking, the first term gives usn "terms in the 2nd power", while the second term gives us n−1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.n , as well as for the case when n→∞ .
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any
fuente