Si he calculado la media para 4 conjuntos de datos (que tienen diferentes tamaños de muestra), ¿puedo obtener una "media general" calculando la "media de las medias"? En caso afirmativo, ¿será esta "media de las medias" la misma que si hubiera combinado los datos de los 4 conjuntos y luego hubiera calculado la media?
mathematical-statistics
weighted-mean
mean
usuario66429
fuente
fuente
Respuestas:
No, los promedios de los promedios de los subconjuntos no son los mismos que el promedio de todo el conjunto. Solo tendrá el mismo valor si los subconjuntos tienen el mismo tamaño de muestra. Si desea el promedio de la población, multiplique cada promedio por el tamaño de la muestra de la que proviene para obtener el total de la población, luego divida por el número total de puntos de datos (tamaño de la población).
Vea el ejemplo de promedios de bateo en la paradoja de Simpson para obtener una buena ilustración de por qué el promedio de promedios no suele funcionar.
fuente
Probémoslo y veamos si podemos resolverlo. El siguiente ejemplo está codificado
R
, que es gratuito y le permitirá reproducir el ejemplo, pero con suerte el código se explica por sí mismo:Entonces, lo que vemos es que ciertamente puede calcular la media de las medias, pero la media de las medias y la media de todos los datos sin procesar no coinciden. También podemos probar un promedio ponderado usando la sugerencia de @ BilltheLizard para usar el tamaño de muestra de cada grupo como un peso (los pesos se indican con el
w
argumento):Esto ahora nos da la misma respuesta.
fuente
En general, si tiene un conjunto de grupos con tamaños respectivos y significa entonces la media general de la muestra de todos los datos es :metro norte1, . . . ,nortemetro X¯1, . . . ,X¯metro
Por lo tanto, la media general es siempre un promedio ponderado de las medias muestrales de los grupos. En el caso especial donde todos los grupos son del mismo tamaño ( ), todos los pesos serán los mismos y, por lo tanto, la media de la muestra general será la media de las medias de la muestra del grupo.n1=⋯=nm
fuente
Solo quiero dar un ejemplo (extremo): si tenemos una tasa de aciertos de (1/10000) en una muestra, y una tasa de aciertos de (1/2) en otro ejemplo, entonces . En el primer caso (media de medias), tenemos una tasa de aciertos "promedio" de 0.5001 / 2, mientras que en el segundo caso (media del total) tenemos 3/10003, y estos dos números no son lo mismo. Si uno es más apropiado o correcto depende de su caso de uso.∑hititotali≠∑hiti∑totali
fuente