En la definición de desviación estándar, ¿por qué tenemos que cuadrar la diferencia de la media para obtener la media (E) y recuperar la raíz cuadrada al final? ¿No podemos simplemente tomar el valor absoluto de la diferencia y obtener el valor esperado (promedio) de esos, y eso no mostraría también la variación de los datos? El número va a ser diferente del método cuadrado (el método de valor absoluto será más pequeño), pero aún debe mostrar la propagación de datos. ¿Alguien sabe por qué tomamos este enfoque cuadrado como estándar?
La definición de desviación estándar:
¿No podemos simplemente tomar el valor absoluto y seguir siendo una buena medida?
Respuestas:
Si el objetivo de la desviación estándar es resumir la extensión de un conjunto de datos simétricos (es decir, en general, qué tan lejos está cada dato de la media), entonces necesitamos un buen método para definir cómo medir esa extensión.
Los beneficios de la cuadratura incluyen:
Sin embargo, la cuadratura tiene un problema como medida de propagación y es que todas las unidades están al cuadrado, mientras que podríamos preferir que la distribución esté en las mismas unidades que los datos originales (piense en libras al cuadrado, dólares al cuadrado o manzanas al cuadrado) . Por lo tanto, la raíz cuadrada nos permite volver a las unidades originales.
Supongo que se podría decir que la diferencia absoluta asigna igual peso a la difusión de datos, mientras que la cuadratura enfatiza los extremos. Sin embargo, técnicamente, como otros han señalado, la cuadratura hace que el álgebra sea mucho más fácil de trabajar y ofrece propiedades que el método absoluto no (por ejemplo, la varianza es igual al valor esperado del cuadrado de la distribución menos el cuadrado del media de la distribución)
Sin embargo, es importante tener en cuenta que no hay ninguna razón por la que no pueda tomar la diferencia absoluta si esa es su preferencia sobre cómo desea ver 'propagación' (algo así como algunas personas ven el 5% como un umbral mágico para losvalores, cuando de hecho depende de la situación). De hecho, existen varios métodos competitivos para medir la propagación.p
Mi opinión es usar los valores al cuadrado porque me gusta pensar en cómo se relaciona con el Teorema de estadística de Pitágoras: ... esto también me ayuda a recordar eso cuando trabajo con variables aleatorias independientes , agregan variaciones, las desviaciones estándar no. Pero esa es solo mi preferencia subjetiva personal que en su mayoría solo uso como ayuda para la memoria, no dude en ignorar este párrafo.c=a2+b2−−−−−−√
Un análisis mucho más profundo se puede leer aquí .
fuente
La diferencia al cuadrado tiene mejores propiedades matemáticas; es continuamente diferenciable (agradable cuando desea minimizarlo), es una estadística suficiente para la distribución gaussiana, y es (una versión de) la norma L2 que es útil para probar la convergencia, etc.
La desviación media absoluta (la notación de valor absoluto que sugiere) también se usa como una medida de dispersión, pero no es tan "bien portada" como el error al cuadrado.
fuente
Una forma de pensar en esto es que la desviación estándar es similar a una "distancia de la media".
Compare esto con las distancias en el espacio euclidiano: le da la distancia real, donde lo que sugirió (que, por cierto, es la desviación absoluta ) es más como un cálculo de distancia de Manhattan .
fuente
La razón por la que calculamos la desviación estándar en lugar del error absoluto es que estamos asumiendo que el error se distribuye normalmente . Es parte del modelo.
Suponga que estaba midiendo longitudes muy pequeñas con una regla, entonces la desviación estándar es una mala métrica de error porque sabe que nunca medirá accidentalmente una longitud negativa. Una mejor métrica sería una para ayudar a ajustar una distribución Gamma a sus mediciones:
Al igual que la desviación estándar, esto también es no negativo y diferenciable, pero es una mejor estadística de error para este problema.
fuente
La respuesta que mejor me satisfizo es que cae naturalmente de la generalización de una muestra al espacio euclidiano n-dimensional. Ciertamente es discutible si eso es algo que debe hacerse, pero en cualquier caso:
Suponga que sus medidas son cada una un eje en . Entonces sus datos definen un punto en ese espacio. Ahora puede notar que todos los datos son muy similares entre sí, por lo que puede representarlos con un único parámetro de ubicación que está limitado a la línea definida por . Proyectar su punto de datos en esta línea obtiene , y la distancia desde el punto proyectado al punto de datos real es.n Xi Rn xi x μ Xi=μ μ^=x¯ μ^1 n−1n−−−√σ^=∥x−μ^1∥
Este enfoque también le ofrece una interpretación geométrica para la correlación, .ρ^=cos∠(x~⃗ ,y~⃗ )
fuente
Cuadrar la diferencia de la media tiene un par de razones.
La varianza se define como el segundo momento de la desviación (el RV aquí es ) y, por lo tanto, el cuadrado como momentos son simplemente las expectativas de potencias más altas de la variable aleatoria.(x−μ)
Tener un cuadrado en lugar de la función de valor absoluto proporciona una buena función continua y diferenciable (el valor absoluto no es diferenciable en 0), lo que la convierte en la opción natural, especialmente en el contexto del análisis de estimación y regresión.
La formulación al cuadrado también cae naturalmente fuera de los parámetros de la Distribución Normal.
fuente
Otra razón (además de las excelentes anteriores) proviene del propio Fisher, quien demostró que la desviación estándar es más "eficiente" que la desviación absoluta. Aquí, eficiente tiene que ver con cuánto fluctuará el valor de una estadística en diferentes muestreos de una población. Si su población se distribuye normalmente, la desviación estándar de varias muestras de esa población, en promedio, tenderá a darle valores que son bastante similares entre sí, mientras que la desviación absoluta le dará números que se extenderán un poco más. Ahora, obviamente, esto está en circunstancias ideales, pero esta razón convenció a mucha gente (además de que las matemáticas son más limpias), por lo que la mayoría de la gente trabajó con desviaciones estándar.
fuente
Para que la gente sepa, hay una pregunta de desbordamiento matemático sobre el mismo tema.
¿Por qué es tan genial para los números cuadrados en términos de encontrar la desviación estándar?
El mensaje para llevar es que usar la raíz cuadrada de la varianza conduce a matemáticas más fáciles. Rich y Reed dan una respuesta similar.
fuente
Observe lo que esto hace posible: supongamos que lanzo una moneda justa 900 veces. ¿Cuál es la probabilidad de que el número de caras que obtengo esté entre 440 y 455 inclusive? Solo encuentre el número esperado de cabezas ( ), y la varianza del número de cabezas ( ), luego encuentre la probabilidad con una distribución normal (o gaussiana) con la expectativa y la desviación estándar está entre y . Abraham de Moivre hizo esto con lanzamientos de monedas en el siglo XVIII, lo que demuestra primero que la curva en forma de campana vale algo.225 = 15 2 450 15 439,5 455,5450 225=152 450 15 439.5 455.5
fuente
Creo que el contraste entre el uso de desviaciones absolutas y desviaciones cuadradas se vuelve más claro una vez que se mueve más allá de una sola variable y piensa en la regresión lineal. Hay una buena discusión en http://en.wikipedia.org/wiki/Least_absolute_deviations , en particular la sección "Contrastar los mínimos cuadrados con las menos desviaciones absolutas", que enlaza con algunos ejercicios de los estudiantes con un conjunto ordenado de applets en http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .
Para resumir, las desviaciones menos absolutas son más robustas para los valores atípicos que los mínimos cuadrados ordinarios, pero puede ser inestable (un pequeño cambio en un solo dato puede dar un gran cambio en la línea ajustada) y no siempre tiene una solución única: puede haber Toda una gama de líneas ajustadas. Además, las desviaciones menos absolutas requieren métodos iterativos, mientras que los mínimos cuadrados ordinarios tienen una solución simple de forma cerrada, aunque eso no es tan importante ahora como lo fue en los días de Gauss y Legendre, por supuesto.
fuente
Hay muchas razones; probablemente lo principal es que funciona bien como parámetro de distribución normal.
fuente
En muchos sentidos, el uso de la desviación estándar para resumir la dispersión está llegando a una conclusión. Se podría decir que SD asume implícitamente una distribución simétrica debido a su tratamiento igual de la distancia por debajo de la media como la distancia por encima de la media. El SD es sorprendentemente difícil de interpretar para los no estadísticos. Se podría argumentar que la diferencia media de Gini tiene una aplicación más amplia y es significativamente más interpretable. No requiere que uno declare su elección de una medida de tendencia central como lo hace el uso de SD para la media. La diferencia media de Gini es la diferencia absoluta promedio entre dos observaciones diferentes. Además de ser robusto y fácil de interpretar, resulta ser 0.98 tan eficiente como SD si la distribución fuera realmente gaussiana.
fuente
Estimar la desviación estándar de una distribución requiere elegir una distancia.
Se puede usar cualquiera de las siguientes distancias:
Usualmente usamos la distancia euclidiana natural ( ), que es la que todos usan en la vida diaria. La distancia que propone es la que tiene . Ambos son buenos candidatos pero son diferentes.n = 1n=2 n=1
Uno podría decidir usar también.n=3
No estoy seguro de que le guste mi respuesta, mi punto contrario a los demás es no demostrar que es mejor. Creo que si desea estimar la desviación estándar de una distribución, puede usar absolutamente una distancia diferente.n=2
fuente
Depende de lo que esté hablando cuando dice "difusión de los datos". Para mí esto podría significar dos cosas:
Para el punto 1) no hay una razón particular para usar la desviación estándar como medida de dispersión, excepto cuando tiene una distribución de muestreo normal. La medida es una medida más apropiada en el caso de una distribución de muestreo de Laplace . Supongo que la desviación estándar se usa aquí debido a la intuición transferida desde el punto 2). Probablemente también debido al éxito del modelado de mínimos cuadrados en general, para el cual la desviación estándar es la medida adecuada. Probablemente también porque calcular es generalmente más fácil que calcular para la mayoría de las distribuciones.E ( X 2 ) E ( | X | )E(|X−μ|) E(X2) E(|X|)
Ahora, para el punto 2) hay una muy buena razón para usar la varianza / desviación estándar como la medida de la propagación, en un caso particular, pero muy común. Puedes verlo en la aproximación de Laplace a una posterior. Con los datos y la información previa , escriba la parte posterior de un parámetro como:I θD I θ
He usado como variable ficticia para indicar que el denominador no depende de . Si el posterior tiene un único máximo bien redondeado (es decir, no demasiado cerca de un "límite"), podemos ampliar la probabilidad de registro sobre su máximo . Si tomamos los dos primeros términos de la expansión taylor que obtenemos (usando primo para la diferenciación):t θ θmax
Pero tenemos aquí que porque es un "bien redondeado", , entonces tenemos:θmax h′(θmax)=0
Si conectamos esta aproximación obtenemos:
Lo cual, pero para la notación es una distribución normal, con una media igual a , y una varianza igual aE(θ∣DI)≈θmax
( siempre es positivo porque tenemos un máximo bien redondeado). Esto significa que en "problemas regulares" (que es la mayoría de ellos), la varianza es la cantidad fundamental que determina la precisión de las estimaciones para . Entonces, para las estimaciones basadas en una gran cantidad de datos, la desviación estándar tiene mucho sentido teóricamente: básicamente le dice todo lo que necesita saber. Esencialmente se aplica el mismo argumento (con las mismas condiciones requeridas) en caso multidimensional con es una matriz de Hesse. Las entradas diagonales también son esencialmente variaciones aquí también.−h′′(θmax) θ h′′(θ)jk=∂h(θ)∂θj∂θk
El frecuentista que usa el método de máxima verosimilitud llegará esencialmente a la misma conclusión porque el MLE tiende a ser una combinación ponderada de los datos, y para muestras grandes se aplica el Teorema del límite central y básicamente obtienes el mismo resultado si tomamos pero con y intercambiados: (vea si puede adivinar qué paradigma prefiero: P). De cualquier manera, en la estimación de parámetros, la desviación estándar es una medida teórica importante de propagación.θ θ max p ( θ max ∣ θ ) ≈ N ( θ , [ - h ″ ( θ max ) ] - 1 )p(θ∣I)=1 θ θmax
fuente
"¿Por qué cuadrar la diferencia" en lugar de "tomar el valor absoluto"? Para responder de manera muy exacta, existe literatura que da las razones por las cuales fue adoptada y el caso de por qué la mayoría de esas razones no son válidas. "¿No podemos simplemente tomar el valor absoluto ...?". Soy consciente de la literatura en la que la respuesta es sí, se está haciendo y se dice que hacerlo es ventajoso.
El autor Gorard afirma, primero, que el uso de cuadrados se adoptó previamente por razones de simplicidad de cálculo, pero que esas razones originales ya no son válidas. Gorard afirma, en segundo lugar, que se adoptó OLS porque Fisher descubrió que los resultados en muestras de análisis que usaban OLS tenían desviaciones más pequeñas que las que usaban diferencias absolutas (más o menos). Por lo tanto, parece que OLS puede tener beneficios en algunas circunstancias ideales; sin embargo, Gorard continúa señalando que existe cierto consenso (y afirma que Fisher estuvo de acuerdo) que en condiciones del mundo real (medición imperfecta de observaciones, distribuciones no uniformes, estudios de una población sin inferencia de una muestra), usar cuadrados es peor que diferencias absolutas
La respuesta de Gorard a su pregunta "¿No podemos simplemente tomar el valor absoluto de la diferencia y obtener el valor esperado (promedio) de esos?" Es sí. Otra ventaja es que el uso de diferencias produce medidas (medidas de errores y variaciones) que están relacionadas con la forma en que experimentamos esas ideas en la vida. Gorard dice que imagina a las personas que dividen la cuenta del restaurante de manera equitativa y algunos pueden notar intuitivamente que ese método es injusto. Nadie allí cuadrará los errores; Las diferencias son el punto.
Finalmente, usando las diferencias absolutas, señala, trata cada observación por igual, mientras que, al contrastar, las diferencias otorgan a las observaciones predichas un peso poco mayor que las predichas bien, lo que es como permitir que ciertas observaciones se incluyan en el estudio varias veces. En resumen, su idea general es que hoy en día no hay muchas razones ganadoras para usar cuadrados y que, por el contrario, usar diferencias absolutas tiene ventajas.
Referencias
fuente
Porque los cuadrados pueden permitir el uso de muchas otras operaciones o funciones matemáticas más fácilmente que los valores absolutos.
Ejemplo: los cuadrados se pueden integrar, diferenciar, se pueden usar en funciones trigonométricas, logarítmicas y de otro tipo, con facilidad.
fuente
Al agregar variables aleatorias, se suman sus variaciones, para todas las distribuciones. La varianza (y, por lo tanto, la desviación estándar) es una medida útil para casi todas las distribuciones, y de ninguna manera se limita a las distribuciones gaussianas (también conocidas como "normales"). Eso favorece usarlo como nuestra medida de error. La falta de unicidad es un problema serio con diferencias absolutas, ya que a menudo hay un número infinito de "ajustes" de igual medida y, sin embargo, claramente el "uno en el medio" es el más realista. Además, incluso con las computadoras actuales, la eficiencia computacional es importante. Trabajo con grandes conjuntos de datos y el tiempo de CPU es importante. Sin embargo, no existe una única "mejor" medida absoluta de residuos, como se señala en algunas respuestas anteriores. Diferentes circunstancias a veces requieren diferentes medidas.
fuente
Naturalmente, puede describir la dispersión de una distribución de cualquier manera significativa (desviación absoluta, cuantiles, etc.).
Un buen hecho es que la varianza es el segundo momento central, y cada distribución se describe de manera única por sus momentos si existen. Otro hecho interesante es que la varianza es mucho más manejable matemáticamente que cualquier métrica comparable. Otro hecho es que la varianza es uno de los dos parámetros de la distribución normal para la parametrización habitual, y la distribución normal solo tiene 2 momentos centrales distintos de cero, que son esos dos parámetros. Incluso para distribuciones no normales, puede ser útil pensar en un marco normal.
Tal como lo veo, la razón por la cual la desviación estándar existe como tal es que en las aplicaciones aparece regularmente la raíz cuadrada de la varianza (como para estandarizar una variable aleatoria), que necesitaba un nombre para ella.
fuente
Un enfoque diferente y quizás más intuitivo es cuando piensa en la regresión lineal frente a la regresión mediana.
Supongamos que nuestro modelo es que . Luego encontramos b minimizando el residuo cuadrado esperado, .E(y|x)=xβ β=argminbE(y−xb)2
Si, en cambio, nuestro modelo es la mediana , entonces encontramos nuestras estimaciones de parámetros minimizando los residuos absolutos ,.(y|x)=xβ β=argminbE|y−xb|
En otras palabras, si usar un error absoluto o cuadrado depende de si desea modelar el valor esperado o el valor medio.
Si la distribución, por ejemplo, muestra heterocedasticidad sesgada, entonces hay una gran diferencia en cómo la pendiente del valor esperado de cambios más de a cómo la pendiente es para la mediana valor de .y x y
Koenker y Hallock tienen un buen artículo sobre regresión cuantil, donde la regresión mediana es un caso especial: http://master272.com/finance/QR/QRJEP.pdf .
fuente
Mi suposición es esta: la mayoría de las poblaciones (distribuciones) tienden a congregarse alrededor de la media. Cuanto más lejos está un valor de la media, más raro es. Para expresar adecuadamente cuán "fuera de línea" es un valor, es necesario tener en cuenta su distancia de la media y su rareza (normalmente hablando). La cuadratura de la diferencia con respecto a la media hace esto, en comparación con los valores que tienen desviaciones más pequeñas. Una vez que se promedian todas las variaciones, está bien sacar la raíz cuadrada, que devuelve las unidades a sus dimensiones originales.
fuente
La cuadratura amplifica las desviaciones más grandes.
Si su muestra tiene valores en todo el gráfico, entonces para llevar el 68.2% dentro de la primera desviación estándar, su desviación estándar debe ser un poco más amplia. Si sus datos tienden a caer en torno a la media, entonces σ puede ser más estricto.
Algunos dicen que es para simplificar los cálculos. Usar la raíz cuadrada positiva del cuadrado habría resuelto eso para que el argumento no flote.
Entonces, si la meta era la simplicidad algebraica, entonces se vería así:
Obviamente, cuadrar esto también tiene el efecto de amplificar los errores periféricos (¡doh!).
fuente
sqrt((x-mu)^2)
, su fórmula es engañosa. Además, el hecho de que la cuadratura tenga el efecto de amplificar las desviaciones más grandes no significa que esta sea la razón para preferir la variación sobre el MAD . En todo caso, esa es una propiedad neutral ya que muchas veces queremos algo más robusto como el MAD . Por último, el hecho de que la varianza sea más manejable matemáticamente que el MAD es un problema matemático mucho más profundo que el que ha transmitido en esta publicación.Cuadramos la diferencia de las x de la media porque la distancia euclidiana, proporcional a la raíz cuadrada de los grados de libertad (número de x, en una medida de población), es la mejor medida de dispersión.
Calcular distancia
¿Cuál es la distancia del punto 0 al punto 5?
Ok, eso es trivial porque es una sola dimensión.
¿Qué tal la distancia para un punto en el punto 0, 0 al punto 3, 4?
Si solo podemos ir en 1 dimensión a la vez (como en bloques de ciudades), entonces solo sumamos los números. (Esto a veces se conoce como la distancia de Manhattan).
¿Pero qué hay de ir en dos dimensiones a la vez? Luego (según el teorema de Pitágoras que todos aprendimos en la escuela secundaria), cuadramos la distancia en cada dimensión, sumamos los cuadrados y luego tomamos la raíz cuadrada para encontrar la distancia desde el origen hasta el punto.
¿Qué tal la distancia desde un punto en 0, 0, 0 hasta el punto 1, 2, 2?
Esto es simplemente
porque la distancia para las dos primeras x forma la pata para calcular la distancia total con la x final.
Podemos continuar extendiendo la regla de cuadrar la distancia de cada dimensión, esto se generaliza a lo que llamamos una distancia euclidiana, para mediciones ortogonales en el espacio hiperdimensional, así:
y entonces la suma de los cuadrados ortogonales es la distancia al cuadrado:
¿Qué hace que una medición sea ortogonal (o en ángulo recto) a otra? La condición es que no hay relación entre las dos mediciones. Buscaríamos que estas mediciones sean independientes y se distribuyan individualmente ( iid ).
Diferencia
Ahora recuerde la fórmula para la varianza de la población (de la cual obtendremos la desviación estándar):
Si ya hemos centrado los datos en 0 restando la media, tenemos:
Entonces, vemos que la varianza es solo la distancia al cuadrado dividida por el número de grados de libertad (el número de dimensiones en las que las variables pueden variar libremente). Esta es también la contribución promedio a la por medición. "Varianza cuadrática media" también sería un término apropiado.distance2
Desviación Estándar
Luego tenemos la desviación estándar, que es solo la raíz cuadrada de la varianza:
Lo que es equivalente, la distancia , dividida por la raíz cuadrada de los grados de libertad:
Desviación media absoluta
La desviación absoluta media (MAD), es una medida de dispersión que utiliza la distancia de Manhattan, o la suma de valores absolutos de las diferencias con respecto a la media.
Nuevamente, suponiendo que los datos estén centrados (la media restada) tenemos la distancia de Manhattan dividida por el número de mediciones:
Discusión
Esta tabla refleja la información anterior de una manera más concisa:
Comentarios:
Aquí hay 10 simulaciones de un millón de muestras de la distribución normal estándar:
Conclusión
Preferimos las diferencias al cuadrado al calcular una medida de dispersión porque podemos explotar la distancia euclidiana, lo que nos da una mejor estadística descriptiva de la dispersión. Cuando hay valores más extremos, la distancia euclidiana explica eso en la estadística, mientras que la distancia de Manhattan le da a cada medida el mismo peso.
fuente