¿Cómo 'sumar' una desviación estándar?

68

Tengo un promedio mensual para un valor y una desviación estándar correspondiente a ese promedio. Ahora estoy calculando el promedio anual como la suma de los promedios mensuales, ¿cómo puedo representar la desviación estándar para el promedio sumado?

Por ejemplo, considerando la producción de un parque eólico:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Podemos decir que en el año promedio el parque eólico produce 10,358 MWh, pero ¿cuál es la desviación estándar correspondiente a esta cifra?

klonq
fuente
3
Una discusión que siguió a una respuesta ahora eliminada señaló una posible ambigüedad en esta pregunta: ¿busca la DE de los promedios mensuales o desea recuperar la DE de todos los valores originales a partir de los cuales se construyeron esos promedios? Esa respuesta también señaló correctamente que si desea este último, necesitará la cantidad de valores involucrados en cada uno de los promedios mensuales.
whuber
1
Un comentario a otra respuesta eliminada señaló que es extraño calcular un promedio como una suma : seguramente quiere decir que está promediando los promedios mensuales. Pero si lo que desea es estimar el promedio de todos los datos originales, dicho procedimiento no suele ser bueno: se necesita un promedio ponderado . Y, por supuesto, no es posible dar una buena respuesta a su pregunta sobre el "DE para el promedio sumado" hasta que quede claro cuál es el "promedio sumado" y qué pretende representar. Por favor aclarar eso para nosotros.
whuber
@whuber He agregado un ejemplo para aclarar. Matemáticamente creo que la suma de los promedios es igual al promedio mensual multiplicado por 12.
klonq
2
Sí, klonq, esa es una solicitud muy razonable. Sin embargo, estas respuestas fueron eliminadas por su propietario, no por la comunidad. Para preservar su valor, he intentado transmitir aquí (mi opinión) las ideas clave que surgen en esas respuestas y sus comentarios. Por cierto, tus ediciones recientes son bastante útiles: a la gente le gusta ver datos de ejemplo.
whuber
1
Bienvenido al sitio, @Hayden. Esta no es una respuesta a la pregunta del OP. Utilice solo el campo "Su respuesta" para proporcionar respuestas. Si tiene una pregunta de seguimiento, haga clic [ASK QUESTION]en la parte superior y pregúntela allí, entonces podemos ayudarlo adecuadamente. Como eres nuevo aquí, es posible que desees realizar nuestro recorrido , que contiene información para nuevos usuarios.
gung - Restablece a Monica

Respuestas:

66

Respuesta corta: promedias las variaciones ; entonces puedes sacar raíz cuadrada para obtener la desviación estándar promedio .


Ejemplo

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

Y luego la desviación estándar promedio essqrt(53,964) = 232


De la suma de variables aleatorias distribuidas normalmente :

Si e son variables aleatorias independientes que normalmente se distribuyen (y, por lo tanto, también de manera conjunta), entonces su suma también se distribuye normalmenteXY

... la suma de dos variables aleatorias independientes distribuidas normalmente es normal, siendo su media la suma de las dos medias, y su varianza es la suma de las dos varianzas

Y de la distribución de suma normal de Wolfram Alpha :

Sorprendentemente, la distribución de una suma de dos variables independientes normalmente distribuidas e con medias y variaciones y , respectivamente, es otra distribución normalXY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

que tiene significado

μX+Y=μX+μY

y varianza

σX+Y2=σX2+σY2

Para sus datos:

  • suma: 10,358 MWh
  • diferencia: 647,564
  • Desviación Estándar: 804.71 ( sqrt(647564) )

ingrese la descripción de la imagen aquí

Entonces para responder a su pregunta:

  • ¿Cómo 'sumar' una desviación estándar ?
  • Los sumas cuadráticamente:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Conceptualmente sumas las variaciones, luego sacas la raíz cuadrada para obtener la desviación estándar.


Como tenía curiosidad, quería saber la potencia media mensual promedio y su desviación estándar . A través de la inducción, necesitamos 12 distribuciones normales que:

  • suma a una media de 10,358
  • suma a una varianza de 647,564

Eso sería 12 distribuciones mensuales promedio de:

  • significado de 10,358/12 = 863.16
  • varianza de 647,564/12 = 53,963.6
  • desviación estándar de sqrt(53963.6) = 232.3

ingrese la descripción de la imagen aquí

Podemos verificar nuestras distribuciones promedio mensuales al sumarlas 12 veces, para ver que son iguales a la distribución anual:

  • Media: 863.16*12 = 10358 = 10,358( correcta )
  • Varianza: 53963.6*12 = 647564 = 647,564( correcta )

Nota : se lo dejaré a alguien con conocimiento de las matemáticas esotéricas de Latex para convertir mis imágenes de fórmula y formula codeen fórmulas formateadas de intercambio de pila.

Editar : moví el corto, al punto, respondo arriba. Porque necesitaba volver a hacer esto hoy, pero quería verificar que promediara las variaciones .

Ian Boyd
fuente
3
Todo esto parece suponer que los meses no están correlacionados: ¿ha hecho explícita esa suposición en alguna parte? Además, ¿por qué necesitamos incorporar la distribución normal? Si solo estamos hablando de varianza, entonces eso parece innecesario, por ejemplo, vea mi respuesta aquí
Macro
1
@Marco Porque pienso mejor en imágenes y hace que todo sea más fácil de entender.
Ian Boyd
2
@Marco Además, creo que esta pregunta comenzó en el sitio (ahora difunto) stats.stackexchange. Una pared de fórmulas es menos accesible que los tratamientos más simples, gráficos y menos rigurosos.
Ian Boyd
2
Dudo que esto sea correcto. Imagine dos conjuntos de datos con cada uno solo una medición cada uno. Su varianza de cada conjunto es 0, pero el conjunto de ambas mediciones tiene una varianza mayor que 0 si los puntos de datos difieren.
Njol
1
@Njol, creo que es por eso que asumimos que todas las variables tienen una distribución normal. Y podemos hacerlo aquí, porque hablamos de medición física. En su ejemplo, ambas variables no se distribuyen normalmente.
tworec
11

Esta es una vieja pregunta, pero la respuesta aceptada no es correcta o completa. El usuario desea calcular la desviación estándar en datos de 12 meses donde la media y la desviación estándar ya se calculan cada mes. Suponiendo que el número de muestras en cada mes es el mismo, entonces es posible calcular la media y la varianza de la muestra a lo largo del año a partir de los datos de cada mes. Por simplicidad, supongamos que tenemos dos conjuntos de datos:

X={x1,....xN}

Y={y1,....,yN}

con valores conocidos de media muestral y varianza muestral, , , , .μxμyσx2σy2

Ahora queremos calcular las mismas estimaciones para

Z={x1,....,xN,y1,...,yN} .

Tenga en cuenta que , se calculan como:μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Para estimar la media y la varianza sobre el conjunto total necesitamos calcular:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2 que se proporciona en la respuesta aceptada. Sin embargo, para variar, la historia es diferente:

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Entonces, si tiene la varianza sobre cada subconjunto y desea la varianza sobre todo el conjunto, puede promediar las varianzas de cada subconjunto si todas tienen la misma media. De lo contrario, debe agregar la varianza de la media de cada subconjunto.

Digamos que durante la primera mitad del año producimos exactamente 1000 MWh por día y en la segunda mitad, producimos 2000 MWh por día. Entonces, la media y la varianza de la producción de energía en la primera y segunda mitad son 1000 y 2000 para la media y la varianza es 0 para ambas mitades. Ahora hay dos cosas diferentes que nos pueden interesar:

1- Queremos calcular la variación de la producción de energía durante todo el año : luego, promediando las dos variaciones llegamos a cero, lo cual no es correcto ya que la energía por día durante todo el año no es constante. En este caso, necesitamos agregar la varianza de todas las medias de cada subconjunto. Matemáticamente, en este caso, la variable aleatoria de interés es la producción de energía por día. Tenemos estadísticas de muestra sobre subconjuntos y queremos calcular las estadísticas de muestra durante un tiempo más largo.

2- Queremos calcular la variación de la producción de energía por año: en otras palabras, estamos interesados ​​en cuánto cambia la producción de energía de un año a otro. En este caso, promediar la varianza conduce a la respuesta correcta, que es 0, ya que en cada año estamos produciendo exactamente 1500 MHW en promedio. Matemáticamente, en este caso, la variable aleatoria de interés es el promedio de producción de energía por día, donde el promedio se realiza durante todo el año.

Hooman
fuente
1

Sin embargo, creo que lo que realmente le puede interesar es el error estándar en lugar de la desviación estándar.

El error estándar de la media (SEM) es la desviación estándar de la estimación de la media de la muestra de una media poblacional, y eso le dará una medida de cuán buena es su estimación anual de MWh.

Es muy fácil de calcular: si usó muestras para obtener sus promedios mensuales de MWh y desviaciones estándar, simplemente calcularía la desviación estándar como sugirió @IanBoyd y la normalizaría según el tamaño total de su muestra. Es decir,s = n

s=s12+s22++s12212×n
Matteo
fuente
1

Me gustaría enfatizar nuevamente la incorrección en parte de la respuesta aceptada. La redacción de la pregunta conduce a la confusión.

La pregunta tiene Promedio y StdDev de cada mes, pero no está claro qué tipo de subconjunto se usa. ¿Es el promedio de 1 turbina eólica de toda la granja o el promedio diario de toda la granja? Si es el promedio diario de cada mes, no puede sumar el promedio mensual para obtener el promedio anual porque no tienen el mismo denominador. Si es el promedio de la unidad, la pregunta debe indicar

Podemos decir que en el año promedio cada turbina en el parque eólico produce 10,358 MWh, ...

En lugar de

Podemos decir que en el año promedio el parque eólico produce 10,358 MWh, ...

Además, la desviación estándar o la varianza es la comparación con el promedio propio del conjunto. NO contiene ninguna información sobre el promedio de todo el conjunto.

Ejemplo de varianza

La imagen no es necesariamente muy correcta pero transmite la idea general. Imaginemos la salida de 1 parque eólico como en la imagen. Como puede ver, la variación "local" no tiene nada que ver con la variación "global", sin importar cómo las agregue o multiplique. No puede predecir la varianza del año utilizando la varianza de 2 medio año. Entonces, en la respuesta aceptada, aunque el cálculo de la suma es correcto, la división por 12 para obtener el número mensual no significa nada. . De las tres secciones, la primera y la última sección son incorrectas, la segunda es correcta.

Nuevamente, es una aplicación muy incorrecta, no la sigas o te metería en problemas. Simplemente calculado para todo, utilizando la producción total anual / mensual de cada unidad como puntos de datos dependiendo de si desea un número anual o mensual, esa debería ser la respuesta correcta. Probablemente quieras algo como esto. Estos son mis números generados al azar. Si tiene los datos, el resultado en la celda O2 debería ser su respuesta.

ingrese la descripción de la imagen aquí

Tam Le
fuente
Muchas gracias por la imagen que me ayudó mucho a entender por qué la respuesta aceptada es incompleta e incluso puede ser incorrecta. Lo explicaste muy bien, ¡gracias!
Kay
Esto muestra el peligro de votar. Las personas que votan son las personas que no saben la respuesta. En oposición a la codificación, las personas que votan son las personas que hacen funcionar el código, cuanto más voten, mejor será la respuesta. Para estadística / matemática, más votos solo significa que es más atractivo.
Tam Le