¿Será la media de un conjunto de medias siempre la misma que la media obtenida de todo el conjunto de datos sin procesar?

11

Si he calculado la media para 4 conjuntos de datos (que tienen diferentes tamaños de muestra), ¿puedo obtener una "media general" calculando la "media de las medias"? En caso afirmativo, ¿será esta "media de las medias" la misma que si hubiera combinado los datos de los 4 conjuntos y luego hubiera calculado la media?

usuario66429
fuente
3
¿Lo has intentado en ambos sentidos ;-)? (No.)
gung - Restablece a Monica

Respuestas:

14

No, los promedios de los promedios de los subconjuntos no son los mismos que el promedio de todo el conjunto. Solo tendrá el mismo valor si los subconjuntos tienen el mismo tamaño de muestra. Si desea el promedio de la población, multiplique cada promedio por el tamaño de la muestra de la que proviene para obtener el total de la población, luego divida por el número total de puntos de datos (tamaño de la población).

Vea el ejemplo de promedios de bateo en la paradoja de Simpson para obtener una buena ilustración de por qué el promedio de promedios no suele funcionar.

Bill el lagarto
fuente
2

Probémoslo y veamos si podemos resolverlo. El siguiente ejemplo está codificado R, que es gratuito y le permitirá reproducir el ejemplo, pero con suerte el código se explica por sí mismo:

group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
#  2
mean(group2)
#  6.5
mean(c(group1, group2))
#  5
mean(c(mean(group1), mean(group2)))
#  4.25

Entonces, lo que vemos es que ciertamente puede calcular la media de las medias, pero la media de las medias y la media de todos los datos sin procesar no coinciden. También podemos probar un promedio ponderado usando la sugerencia de @ BilltheLizard para usar el tamaño de muestra de cada grupo como un peso (los pesos se indican con el wargumento):

weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
#  5

Esto ahora nos da la misma respuesta.

gung - Restablece a Monica
fuente
1

En general, si tiene un conjunto de grupos con tamaños respectivos y significa entonces la media general de la muestra de todos los datos es :mn1,...,nmx¯1,...,x¯m

x¯=k=1mnknx¯kn=i=1mnk.

Por lo tanto, la media general es siempre un promedio ponderado de las medias muestrales de los grupos. En el caso especial donde todos los grupos son del mismo tamaño ( ), todos los pesos serán los mismos y, por lo tanto, la media de la muestra general será la media de las medias de la muestra del grupo.n1==nm

Ben - Restablece a Monica
fuente
0

Solo quiero dar un ejemplo (extremo): si tenemos una tasa de aciertos de (1/10000) en una muestra, y una tasa de aciertos de (1/2) en otro ejemplo, entonces . En el primer caso (media de medias), tenemos una tasa de aciertos "promedio" de 0.5001 / 2, mientras que en el segundo caso (media del total) tenemos 3/10003, y estos dos números no son lo mismo. Si uno es más apropiado o correcto depende de su caso de uso.hititotalihititotali

intercambio de información
fuente