¿Por qué se toma la raíz cuadrada para el recuento de muestras "N" en la fórmula de desviación estándar?

9

Estoy tratando de entender un concepto muy básico de desviación estándar.

De la fórmulaσ=i=1n(xiμ)2N

No puedo entender por qué deberíamos reducir a la mitad la población "N", es decir, ¿por qué queremos tomar cuando no hicimos ? ¿No distorsiona eso a la población que estamos considerando? N 2NN2

No debería ser la fórmula beσ=i=1n(xiμ)2N

Mahesh Subramaniya
fuente

Respuestas:

10

Estás tratando de encontrar una desviación "típica" de la media.

La varianza es "la distancia cuadrada promedio de la media".

La desviación estándar es la raíz cuadrada de eso.

Eso la convierte en la desviación cuadrática media de la media.

  1. ¿Por qué usaríamos la desviación cuadrática promedio? ¿Qué hace que la varianza sea interesante? Entre otras cosas, debido a un hecho básico sobre las variaciones : que la variación de una suma de variables no correlacionadas es la suma de las variaciones individuales. (Esto está cubierto en una serie de preguntas, por ejemplo, aquí en CrossValidated. Esta práctica característica no se comparte, por ejemplo, por la desviación media absoluta.
  2. ¿Por qué tomar la raíz cuadrada de eso? Porque entonces está en las mismas unidades que las observaciones originales. Mide un tipo particular de "distancia típica" de la media (como se mencionó, la distancia RMS), pero debido a la propiedad de varianza anterior, una que tiene algunas características agradables.
Glen_b -Reinstate a Monica
fuente
7

La desviación estándar es la raíz cuadrada de la varianza .

La varianza es la distancia cuadrática promedio de los datos de la media. Como un promedio es la suma dividida por el número de elementos sumados, la fórmula para la varianza es: Dado que, nuevamente, la desviación estándar es simplemente la raíz cuadrada de esto, la fórmula para la desviación estándar es: No se ha agregado o cambiado nada sobre las suposiciones o la varianza aquí, simplemente tomaron la raíz cuadrada de la varianza, porque eso es lo que la desviación estándar es .
S.D. (X)=

Var(X)=E[(Xμ)2]=i=1N(xiμ)2N

S.D.(X)=Var(X)=i=1N(xiμ)2N
gung - Restablece a Monica
fuente
quizás debería mencionarse que esta fórmula de variación solo es cierta para uniformes discretos. de lo contrario, podría confundir la distinción entre la muestra y la varianza de la población
Taylor
@ Taylor, no sé a qué te refieres. La fórmula para la varianza no está relacionada con la distribución.
gung - Restablece a Monica
la fórmula para la varianza (de muestra) no está relacionada con la distribución ( en.wikipedia.org/wiki/Expected_value#Definition )
Taylor
@ Taylor, todavía no sé a qué te refieres. La fórmula para la varianza no está relacionada con la distribución. Para citar de la página de Wikipedia, "La varianza de una variable aleatoria, X, es el valor esperado de la desviación al cuadrado de la media de X ... . Esta definición abarca variables aleatorias generadas por procesos que son discretos, continuos, ninguno o mixto ". La fórmula no solo es válida para el uniforme discreto. Var(X)=E[(Xμ)2]
gung - Restablece a Monica
Sí, es correcto, si toma , pero no necesariamente es igual, para cualquier variable aleatoria , . Por un lado, el primero es una constante y el segundo es aleatorio. En realidad, no está claro si la suma se ejecuta sobre el soporte de o el número de muestras. Si es lo último, es extraño que sepas , lo cual es raro en la práctica. Si es lo primero, entonces sí, solo es cierto para los uniformes discretos (porque es una suma) (porque los pesos son todos uniformes). μ=EXE[(Xμ)2]X1Ni(xiμ)2Xμ
Taylor
1

Lo primero que hay que entender es que la desviación estándar (estándar) es diferente de la desviación absoluta promedio . Estos dos definen diferentes propiedades matemáticas sobre los datos.

A diferencia de la desviación absoluta promedio, la desviación estándar (estándar) pesa más a los valores que están lejos de la media, lo que se hace al cuadrar los valores de diferencia.

Por ejemplo, para los siguientes cuatro puntos de datos:

Data(x)|xmean|(xmean)222422466366636x=0(|xmean|)=16(xmean)2=80

desviación absoluta promedio (aad) , y=16/4=4.0

Desviación estándar (estándar) =80/4=20=4.47

En los datos, hay dos puntos que están a 6 distancias de la media, y dos puntos que están a 2 distancias de la media. Entonces, la desviación de 4.47 tiene más sentido que 4.

Dado que la observación total siempre es , para calcular std no estamos buceando por , en su lugar dividimos la varianza total entre y tomamos su raíz cuadrada para llevarla a la misma unidad que los datos originales.N NNN

aumpen
fuente
0

@Mahesh Subramaniya: esto es solo un giro matemático . Cuando tenemos un valor original como . Podemos obtener el mismo valor usando estas dos ecuaciones y .a 2b = c a/b=()da2b=ccb=d

Por ejemplo, simplemente hazlo con = . Pero, solo queremos valor, no menos. - 2.5522.5

Ahora, . Y,522=12.512.52=2.5

Ellephy
fuente