Estoy tratando de obtener una mejor comprensión intuitiva de la desviación estándar.
Por lo que entiendo, es representativo del promedio de las diferencias de un conjunto de observaciones en un conjunto de datos de la media de ese conjunto de datos. Sin embargo, NO es realmente igual a los promedios de las diferencias, ya que da más peso a las observaciones más alejadas de la media.
Digamos que tengo la siguiente población de valores:
La media es .
Si tomo una medida de propagación basada en el valor absoluto obtengo
Si tomo una medida de propagación basada en la desviación estándar, obtengo
El resultado que utiliza la desviación estándar es mayor, como se esperaba, debido al peso adicional que otorga a los valores más alejados de la media.
Pero si me acabaran de decir que estaba tratando con una población con una media de y una desviación estándar de 2,83, ¿cómo inferiría que la población se componía de valores como { 1 , 3 , 5 , 7 , 9 } ? Parece que la cifra de 2.83 es muy arbitraria ... No veo cómo se supone que debes interpretarla. ¿ 2,83 significa que los valores están muy extendidos o están todos agrupados estrechamente alrededor de la media ...
Cuando se le presenta una declaración de que se trata de una población con una media de y una desviación estándar de 2,83, ¿qué le dice eso sobre la población?
fuente
Respuestas:
Mi intuición es que la desviación estándar es: una medida de propagación de los datos.
Tiene un buen punto de que si es ancho o ajustado depende de cuál sea nuestro supuesto subyacente para la distribución de los datos.
Advertencia: Una medida de propagación es más útil cuando la distribución de sus datos es simétrica alrededor de la media y tiene una variación relativamente cercana a la de la distribución Normal. (Esto significa que es aproximadamente Normal).
En el caso de que los datos sean aproximadamente normales, la desviación estándar tiene una interpretación canónica:
(ver primer gráfico en Wiki )
Esto significa que si sabemos que la media de la población es 5 y la desviación estándar es 2.83 y suponemos que la distribución es aproximadamente Normal, le diría que estoy razonablemente seguro de que si hacemos (una gran) muchas observaciones, solo el 5% lo hará ser menor que 0.4 = 5 - 2 * 2.3 o mayor que 9.6 = 5 + 2 * 2.3.
Observe cuál es el impacto de la desviación estándar en nuestro intervalo de confianza. (cuanto más extendido, más incertidumbre)
Además, en el caso general en el que los datos ni siquiera son aproximadamente normales, sino simétricos, usted sabe que existen algunosα para los cuales:
Puede aprender el de una submuestra o asumir que α = 2α α = 2 y esto a menudo le da una buena regla general para calcular en su cabeza qué observaciones futuras esperar o cuáles de las nuevas observaciones pueden considerarse como valores atípicos. (¡tenga en cuenta la advertencia!)
Supongo que cada pregunta que se haga "amplia o estrecha" también debe contener: "¿en relación con qué?". Una sugerencia podría ser utilizar una distribución conocida como referencia. Dependiendo del contexto, podría ser útil pensar: "¿Es mucho más amplio o más ajustado que un Normal / Poisson?".
EDITAR: Basado en una pista útil en los comentarios, un aspecto más sobre la desviación estándar como medida de distancia.
Otra intuición más de la utilidad de la desviación estándar es que es una medida de distancia entre los datos de la muestra x 1 , ... , x N y su media ˉ x :snorte X1, ... , xnorte X¯
A modo de comparación, el error cuadrático medio (MSE), una de las medidas de error más populares en estadística, se define como:
Se pueden plantear las preguntas ¿por qué funciona la distancia anterior? ¿Por qué distancias cuadradas, y no distancias absolutas, por ejemplo? ¿Y por qué estamos tomando la raíz cuadrada?
Tener funciones de distancia cuadrática, o error, tiene la ventaja de que podemos diferenciarlas y minimizarlas fácilmente. En lo que respecta a la raíz cuadrada, se suma a la interpretabilidad, ya que convierte el error nuevamente en la escala de nuestros datos observados.
fuente
Puede ser útil darse cuenta de que la media es análoga a la centro de masa . La varianza es el momento de inercia . La desviación estándar es el radio de giro .
Para una perspectiva histórica, eche un vistazo a:
George Airy (1875) Sobre la teoría algebraica y numérica de los errores de observaciones y la combinación de observaciones.
Karl Pearson (1894) Contribuciones a la teoría matemática de la evolución.
Este gráfico de Airy 1875 muestra las diversas medidas de desviación que se pueden convertir fácilmente (página 17). La desviación estándar se llama "error del cuadrado medio". También se discute en las páginas 20-21 y justifica su uso en la página 48, mostrando que es más fácil calcularlo a mano porque no hay necesidad de calcular por separado los errores negativos y positivos. El término desviación estándar fue introducido por Pearson en el documento citado anteriormente en la página 75.
Como comentario: tenga en cuenta que la utilidad de la desviación estándar depende de la aplicabilidad de la "ley de errores", también conocida como la "curva normal", que surge de "una gran cantidad de causas independientes de error" (Airy 1875 pg 7) No hay razón para esperar que las desviaciones de una media grupal de cada individuo deban seguir esta ley. En muchos casos para sistemas biológicos, una distribución logarítmica normal es mejor suposición que lo normal. Ver:
Limpert y otros (2001) Distribuciones log-normales en las ciencias: claves y pistas
Es aún más cuestionable si es apropiado tratar la variación individual como ruido, ya que el proceso de generación de datos actúa al nivel del individuo y no del grupo.
fuente
La desviación estándar, de hecho, da más peso a los que están más lejos de la media, porque es la raíz cuadrada del promedio de las distancias al cuadrado. Las razones para usar esto (en lugar de la desviación absoluta media que propone, o la desviación absoluta media, que se usa en estadísticas robustas) se deben en parte al hecho de que el cálculo es más fácil con los polinomios que con los valores absolutos. Sin embargo, a menudo, queremos enfatizar los valores extremos.
En cuanto a su pregunta sobre el significado intuitivo, se desarrolla con el tiempo. Tiene razón en que más de un conjunto de números pueden tener la misma media y sd; Esto se debe a que la media y SD son solo dos piezas de información, y el conjunto de datos puede ser de 5 piezas (como 1,3,5,7,9) o mucho más.
Si un promedio de 5 y SD de 2.83 es "ancho" o "estrecho" depende del campo en el que esté trabajando.
Cuando solo tiene 5 números, es fácil mirar la lista completa; cuando tiene muchos números, las formas más intuitivas de pensar acerca de la propagación incluyen elementos como el resumen de cinco números o, mejor aún, gráficos como una gráfica de densidad.
fuente
La desviación estándar mide la distancia de su población de la media como variables aleatorias.
La razón por la que pasamos a las funciones y a la teoría de la medida es porque necesitamos tener una forma sistemática de discutir cómo dos espacios de probabilidad son iguales hasta los eventos que tienen cero posibilidades de ocurrir. Ahora que nos hemos movido a las funciones, necesitamos una sensación de distancia.
aquí5 5- denota la función constante t ↦ 5 .
Comprender el significado de la desviación estándar es realmente comprender el significado de la función de distanciare2 y comprender por qué es, en muchos sentidos, la mejor medida de distancia entre funciones.
fuente