Media desviación absoluta vs. desviación estándar

35

En el libro de texto "Nuevas matemáticas completas para el nivel O" de Greer (1983), veo una desviación promedio calculada así:

Resuma las diferencias absolutas entre valores individuales y la media. Luego obtenga su promedio. En todo el capítulo se usa el término desviación media .

Pero recientemente he visto varias referencias que usan el término desviación estándar y esto es lo que hacen:

Calcular cuadrados de diferencias entre valores individuales y la media. Luego obtenga su promedio y finalmente la raíz de la respuesta.

Probé ambos métodos en un conjunto común de datos y sus respuestas difieren. No soy un estadista Me confundí al tratar de enseñarles la desviación a mis hijos.

En resumen, ¿son iguales los términos desviación estándar y desviación media o mi antiguo libro de texto está equivocado?

itsols
fuente
2
Las dos cantidades difieren. Pesan los datos de manera diferente. La desviación estándar será mayor, y está relativamente más afectada por valores mayores. La desviación estándar (más particularmente, la versión del denominador n) puede considerarse como una desviación cuadrática media. Las desviaciones estándar se usan más comúnmente.
Glen_b -Reinstate Monica
66
Muy relacionado : stats.stackexchange.com/questions/118/… .
whuber
Gary Kader tiene una forma divertida de enseñar a los niños a derivar la desviación media absoluta .
Iain Samuel McLean Élder
1
Por cierto, una razón por la que las personas tienden a preferir la desviación estándar es porque las variaciones de sumas de variables aleatorias no relacionadas suman (y las relacionadas también tienen una fórmula simple). Eso no sucede con la desviación media.
Glen_b -Reinstale a Monica el
2
@Alexis la redacción fue pobre. Para variables aleatorias independientes, Var (X + Y) = Var (X) + Var (Y). Este hecho se usa en todo el lugar (conduce a la familiar ntérminos al estandarizar fórmulas que implican medios, como en las estadísticas t de una muestra, por ejemplo). No existe un hecho general correspondiente para la desviación media.
Glen_b

Respuestas:

27

Ambos responden hasta qué punto sus valores se distribuyen alrededor de la media de las observaciones.

Una observación que es 1 debajo de la media está igualmente "lejos" de la media como un valor que es 1 por encima de la media. Por lo tanto, debe descuidar el signo de la desviación. Esto se puede hacer de dos maneras:

  • Calcule el valor absoluto de las desviaciones y sume estas.

  • Cuadra las desviaciones y suma estos cuadrados. Debido al cuadrado, le das más peso a las desviaciones altas y, por lo tanto, la suma de estos cuadrados será diferente de la suma de las medias.

Después de calcular la "suma de las desviaciones absolutas" o la "raíz cuadrada de la suma de las desviaciones cuadradas", las promedia para obtener la "desviación media" y la "desviación estándar" respectivamente.

La desviación media rara vez se usa.

Kasper
fuente
Entonces, cuando uno simplemente dice 'desviación', ¿quieren decir 'desviación estándar'?
itsols
Estoy de acuerdo en que 1 arriba o abajo indicaría un 'cambio' o 'dispersión' significativo desde el punto de vista de un hombre común. Pero cuadrarlo daría valores más grandes y ese podría no ser mi 'cambio real'. Tal vez me equivoque, pero así es como lo veo: /
itsols
La mayoría de las veces se usa el término desviación estándar (raíz cuadrada de la varianza). El cálculo de los cuadrados generalmente se realiza, ya que facilita muchos otros cálculos.
Kasper el
1
@itsols Técnicamente, siempre debe especificar qué tipo de estadística de desviación está calculando para el conjunto de datos; la palabra desviación por sí sola debe referirse a la desviación de un único punto de datos de la media (en la forma en que Kasper lo usa en la respuesta )
AmeliaBR
@itsols, +1 a Amelia. De hecho, nadie dice que una estadística de conjunto de datos sea ​​solo "desviación". Una estadística es "desviación media absoluta" o "raíz de desviación cuadrática media" o similar.
ttnphns
15

Hoy en día, los valores estadísticos se calculan predominantemente por programas de computadora (Excel, ...), ya no por calculadoras de mano. Por lo tanto, diría que calcular la "desviación media" no es más engorroso que calcular la "desviación estándar". Aunque la desviación estándar puede tener "... propiedades matemáticas que la hacen más útil en estadística", es, de hecho, una distorsión del concepto de varianza de una media, ya que proporciona una ponderación adicional a los puntos de datos lejos de la media. Puede llevar algo de tiempo, pero yo, por mi parte, espero que los estadísticos evolucionen para usar la "desviación media" más a menudo cuando se discute la distribución entre los puntos de datos: representa con mayor precisión cómo pensamos realmente en la distribución.

andyl
fuente
Usted hace una afirmación extraordinaria sobre cómo "realmente piensan" las personas (estadísticamente calificadas). ¿Cuál es la fuente de su información sobre eso?
whuber
77
La fuente es simplemente personas a quienes he cuestionado sobre este tema, así como a mí mismo. Cuando se le preguntó: ¿Cómo se imagina la variación en este conjunto de datos? la respuesta siempre se expresó en términos de la distancia lineal desde la media; la respuesta nunca incluyó cuadrados o raíces cuadradas. De acuerdo, soy un ingeniero, no un "estadístico", pero le pediría a cualquier otra persona que se desafíe a sí mismo en este tema. Sí, nos encantan las matemáticas de la desviación estándar: es divertido, pero ¿es así como imaginas la desviación de la media?
andyl
2
Depende del propósito. Para la exploración de datos, tiendo a usar estimaciones de dispersión sólidas y basadas en el rango, como las desviaciones medias de las medianas, que en espíritu están cerca de su propuesta. Pero para muchos otros trabajos, especialmente al evaluar (incluso mentalmente) el potencial de significación estadística, estimar tamaños de muestra apropiados, calcular el valor de la información y decidir entre procedimientos estadísticos competidores, pensar en términos de variaciones (y, por lo tanto, desviaciones estándar) es esencial. Las desviaciones medias no son sustitutos, como lo muestran claramente las matemáticas.
whuber
1
Mira este artículo .
Pete
@Pete ¿Cómo llegaste allí?
Vicrobot
9

Ambos miden el mismo concepto, pero no son iguales.

1norteEl |Xyo-X¯El |1norte(Xyo-X¯)2

una+siuna+si
El |Xyo-X¯El |=(Xyo-X¯)2(Xyo-X¯)2

norte

1norte(Xyo-X¯)2

La razón por la cual se prefiere la desviación estándar se debe a que es matemáticamente más fáciles de trabajar más tarde, cuando los cálculos se vuelven más complicadas.

ltronneberg
fuente
3
¡El valor absoluto de una suma no es , en general, el mismo que la suma de valores absolutos! Ni las funciones cuadradas, de raíz cuadrada ni absolutas son lineales, por lo que la suma después de aplicar la función es diferente de aplicar la función después de tomar la suma.
AmeliaBR
@AmeliaBR, por supuesto, tienes toda la razón.
ltronneberg
Sin embargo, el resto del argumento fue bueno, por eso decidí editar la declaración problemática.
AmeliaBR
8

@itsols, voy a añadir a la importante noción de que Kasper The mean deviation is rarely used. ¿Por qué se considera desviación estándar por lo general una mejor medida de la variabilidad de la desviación media absoluta? Debido a media aritmética es el lugar geométrico de suma mínima de cuadrados (y no sumar absolutos) de las desviaciones de ella.

Suponga que desea evaluar el grado de altruismo. Entonces, probablemente no le preguntará a una persona cuánto está dispuesto a dar dinero en la "situación general" de la vida. Por el contrario, optará por preguntar cuánto está listo para hacerlo en la situación constante, donde tiene recursos mínimos posibles para su propia vida. Es decir, ¿cuál es la cantidad de altruismo individual en la situación cuando esa cantidad es mínima del individuo?

Del mismo modo, ¿cuál es el grado de variabilidad de estos datos? Intuitivamente, el mejor índice de medición es el que se minimiza (o maximiza) hasta el límite en este contexto. El contexto es "alrededor de la media aritmética". Entonces st. La desviación es la mejor opción en este sentido. Si el contexto fuera "alrededor de la mediana", entonces significa | desviación | sería la mejor opción, porque la mediana es el lugar de suma mínima de las desviaciones absolutas de la misma.

ttnphns
fuente
44
Su justificación para SD basada en Locus es circular. Estás justificando SD al dar especial importancia a la media aritmética: todo esto demuestra que tienen una relación, no que SD sea especial. De manera similar, se puede dar importancia a la mediana, que es el lugar de suma mínima de pérdida absoluta . Las verdaderas razones por las que SD se usa con más frecuencia es porque las matemáticas son más fáciles de trabajar ... además, es más fácil computacionalmente (tanto porque las medianas requieren "clasificación" como porque los cuadrados son más rápidos de calcular que las declaraciones de ramificación). La desviación filosóficamente absoluta tiene mayor valor.
samthebest
7

Una cosa que vale la pena agregar es que la razón más probable por la que su libro de texto de 30 años usó la desviación media absoluta en lugar de la desviación estándar es que es más fácil de calcular a mano (sin cuadrar / raíces cuadradas). Ahora que las calculadoras son fácilmente accesibles para los estudiantes de secundaria, no hay razón para no pedirles que calculen la desviación estándar.

Todavía hay algunas situaciones en las que se usan desviaciones absolutas en lugar de desviaciones estándar en el ajuste de modelos complejos. Las desviaciones absolutas son menos sensibles a los valores extremos extremos (valores lejos de la media / línea de tendencia) en comparación con las desviaciones estándar porque no cuadran esa distancia antes de agregarla a los valores de otros puntos de datos. Dado que los métodos de ajuste del modelo tienen como objetivo reducir la desviación total de la línea de tendencia (según el método de desviación del cálculo), los métodos que usan la desviación estándar pueden terminar creando una línea de tendencia que se aleja de la mayoría de los puntos para estar más cerca de un valor atípico. . El uso de desviaciones absolutas reduce esta distorsión, pero a costa de hacer que el cálculo de la línea de tendencia sea más complicado.

Esto se debe a que, como otros han señalado, la desviación estándar tiene propiedades y relaciones matemáticas que generalmente la hacen más útil en estadística. Pero "útil" nunca debe confundirse con perfecto.

AmeliaBR
fuente
1
Por curiosidad, ¿cuáles son las "propiedades matemáticas" que hacen que SD sea más útil que la desviación absoluta media? Excelente respuesta por cierto.
Weipeng L
@pongba La desviación estándar es intrínseca a muchos modelos estadísticos que suponen una variación aleatoria de múltiples efectos que pueden cancelarse entre sí (es decir, datos distribuidos normalmente). Esto incluye la precisión de muestreo (margen de error) cuando se utiliza una encuesta de una gran población. Si sus datos cumplen con este modelo, puede estimar la probabilidad de obtener un valor del número de DE a partir de la media. Puede calcular la SD de múltiples efectos independientes a partir de la SD de componentes individuales. Ver también: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR
7

Ambos miden la dispersión de sus datos calculando la distancia de los datos a su media.

  1. el desviación absoluta media está usando la norma L1 (también se llama distancia de Manhattan o distancia rectilínea )
  2. la desviación estándar está usando la norma L2 (también llamada distancia euclidiana )

La diferencia entre las dos normas es que la desviación estándar está calculando el cuadrado de la diferencia, mientras que la desviación absoluta media solo está mirando la diferencia absoluta. Por lo tanto, los valores atípicos grandes crearán una mayor dispersión al usar la desviación estándar en lugar del otro método. La distancia euclidiana también se usa con mayor frecuencia. La razón principal es que la desviación estándartener buenas propiedades cuando los datos se distribuyen normalmente. Entonces, bajo este supuesto, se recomienda usarlo. Sin embargo, las personas a menudo hacen esta suposición para los datos que en realidad no se distribuyen normalmente, lo que crea problemas. Si sus datos no se distribuyen normalmente, aún puede usar la desviación estándar, pero debe tener cuidado con la interpretación de los resultados.

Finalmente, debe saber que ambas medidas de dispersión son casos particulares de la distancia de Minkowski , para p = 1 y p = 2. Puede aumentar p para obtener otras medidas de dispersión de sus datos.

RockScience
fuente
También hay una publicación en math.stackexchange sobre este tema: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience
6

Son medidas similares que intentan cuantificar la misma noción. Normalmente usas st. desviación ya que tiene buenas propiedades, si hace alguna suposición sobre la distribución subyacente.

Por otro lado, el valor absoluto en la desviación media causa algunos problemas desde una perspectiva matemática, ya que no puede diferenciarlo y no puede analizarlo fácilmente. Un poco de discusión aquí .

iliasfl
fuente
1

No, estás equivocado. Es una broma. Sin embargo, hay muchas razones viables por las que uno desearía calcular la desviación media en lugar de la STD formal, y de esta manera estoy de acuerdo con el punto de vista de mis hermanos de ingeniería. Ciertamente, si estoy calculando estadísticas para compararlas con un cuerpo de trabajo existente que expresa conclusiones cualitativas y cuantitativas, me quedaría con std. Pero, por ejemplo, suponga que estoy tratando de ejecutar algunos rápidoalgoritmos de detección de anomalías en datos binarios generados por máquina. No busco comparaciones académicas como mi objetivo final. Pero estoy interesado en la inferencia fundamental sobre la "propagación" de un flujo particular de datos sobre su media. También estoy interesado en calcular esto de forma iterativa y de la manera más eficiente posible. En hardware electrónico digital, jugamos trucos sucios todo el tiempo: destilamos multiplicaciones y divisiones en desplazamientos a izquierda y derecha, respectivamente, y para "calcular" valores absolutos, simplemente soltamos el bit de signo (y calculamos el complemento de uno o dos si es necesario) , ambas transformaciones fáciles). Por lo tanto, mi elección es calcularlo de la manera más arrastrante posible y aplicar umbrales lineales a mis cálculos para una detección rápida de anomalías en las ventanas de tiempo deseadas.

NotATroll
fuente
1
La desviación estándar se puede calcular de manera eficiente y sencilla con un algoritmo en línea, tal como se puede hacer en cualquier momento (incluida la desviación absoluta media). Por lo tanto, el requisito de cálculo rápido o simple no descartaría esto (ni descartaría ningún estimador de propagación basado en el momento).
whuber
0

Las dos medidas difieren de hecho. El primero a menudo se conoce como desviación absoluta media (MAD) y el segundo es la desviación estándar (STD). En aplicaciones integradas con potencia de cómputo severamente limitada y memoria de programa limitada, puede ser muy conveniente evitar los cálculos de raíz cuadrada.

De una prueba rápida rápida parece que MAD = f * STD con f en algún lugar entre 0.78 y 0.80 para un conjunto de muestras aleatorias distribuidas gaussianas.

Marco van Steen
fuente
0

Amar Sagoo tiene un muy buen artículo que explica esto: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Para agregar mi propio intento de comprensión intuitiva:

La desviación media es una forma decente de preguntar qué tan lejos está un punto "promedio" hipotético de la media, pero realmente no funciona para preguntar qué tan lejos están todos los puntos entre sí, o qué tan "dispersos" están los datos.

La desviación estándar se pregunta qué tan separados están todos los puntos, por lo que incorpora más información útil que solo la desviación media (por lo que la desviación media generalmente solo se usa como un trampolín para comprender la desviación estándar).

Una buena analogía es el teorema de Pitágoras. El teorema de Pitágoras nos dice la distancia entre puntos en dos dimensiones tomando la distancia horizontal y la distancia vertical, cuadrándolas, sumando los cuadrados y sacando la raíz cuadrada del total.

Si lo miras de cerca, la fórmula para la Desviación Estándar (de la población) es básicamente la misma que el Teorema de Pitágoras, pero con mucho más de dos dimensiones (y usando la distancia desde cada punto a la media como la distancia en cada dimensión). Como tal, proporciona la imagen más precisa de la "distancia" entre todos los puntos en su conjunto de datos.

Para llevar esa analogía un poco más lejos, la desviación absoluta media sería como tomar el promedio de las distancias horizontales y verticales, que es más corta que la distancia total, mientras que la desviación absoluta suma sería la suma de las distancias horizontales y verticales, que es más larga que la distancia real

Isaac Demme
fuente
Supongo que cuando dices desviación media, quieres decir desviación absoluta, que es de lo que estaba hablando el OP. La terminología es importante porque la desviación media es siempre 0. Con respecto a la diferencia entre la desviación absoluta media y la desviación estándar, ambas implican la desviación de TODOS los puntos de la media. Uno involucra la suma de las desviaciones absolutas de la media, mientras que el es la raíz cuadrada si la suma de la desviación al cuadrado ..
Michael R. Chernick
0

La desviación estándar representa la dispersión debido a procesos aleatorios. Específicamente, muchas mediciones físicas que se espera que se deban a la suma de muchos procesos independientes tienen distribuciones normales (curva de campana).

La distribución de probabilidad normal viene dada por: Y=1σ2πmi-(X-μ)22σ2

Dónde Y es la probabilidad de obtener un valor X dado un medio μ y σ…¡la desviación estándar!

En otras palabras, la desviación estándar es un término que surge de las variables aleatorias independientes que se suman. Por lo tanto, no estoy de acuerdo con algunas de las respuestas dadas aquí: la desviación estándar no es solo una alternativa a la desviación media que "resulta más conveniente para cálculos posteriores". La desviación estándar es la forma correcta de modelar la dispersión para fenómenos distribuidos normalmente.

Si observa la ecuación, puede ver que la desviación estándar pesa más las desviaciones mayores de la media. Intuitivamente, puede pensar en la desviación media como una medida de la desviación promedio real de la media, mientras que la desviación estándar representa una distribución en forma de campana, también conocida como "normal", alrededor de la media. Entonces, si sus datos se distribuyen normalmente, la desviación estándar le indica que si muestra más valores, ~ 68% de ellos se encontrarán dentro de una desviación estándar alrededor de la media.

Por otro lado, si tiene una variable aleatoria única, la distribución podría verse como un rectángulo, con la misma probabilidad de que aparezcan valores en cualquier lugar dentro de un rango. En este caso, la desviación media podría ser más apropiada.

TL; DR si tiene datos que se deben a muchos procesos aleatorios subyacentes o que simplemente sabe que se distribuyen normalmente, use la función de desviación estándar.

Aneil Mallavarapu
fuente