Soy un novato en estadísticas, así que ¿podrían ayudarme aquí?
Mi pregunta es la siguiente: ¿Qué significa realmente la varianza agrupada ?
Cuando busco una fórmula para la varianza agrupada en Internet, encuentro mucha literatura usando la siguiente fórmula (por ejemplo, aquí: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):
Pero, ¿qué calcula realmente ? Porque cuando uso esta fórmula para calcular mi varianza agrupada, me da una respuesta incorrecta.
Por ejemplo, considere estas "muestras principales":
La varianza de esta muestra original es , y su media es .
Ahora, supongamos que divido esta muestra principal en dos submuestras:
- La primera submuestra es 2,2,2,2,2 con media y varianza .
- La segunda submuestra es 8,8,8,8,8 con media y varianza .
Ahora, claramente, usar la fórmula anterior para calcular la varianza agrupada / principal de estas dos submuestras producirá cero, porque y . Entonces, ¿qué calcula realmente esta fórmula ?
Por otro lado, después de una larga derivación, encontré que la fórmula que produce la varianza agrupada / principal correcta es:
En la fórmula anterior, y d 2 = ¯ x 2 - ˉ x p .
Encontré una fórmula similar a la mía, por ejemplo aquí: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html y también en Wikipedia. Aunque tengo que admitir que no se parecen exactamente a los míos.
Entonces, de nuevo, ¿qué significa realmente la varianza agrupada? ¿No debería significar la varianza de la muestra principal de las dos submuestras? ¿O estoy completamente equivocado aquí?
Gracias de antemano.
EDITAR 1: Alguien dice que mis dos submuestras anteriores son patológicas ya que tienen variación cero. Bueno, podría darte un ejemplo diferente. Considere esta muestra principal:
La varianza de esta muestra original es , y su media es ˉ x p = 25.5 .
Ahora, supongamos que divido esta muestra principal en dos submuestras:
- La primera submuestra es 1,2,3,4,5 con media , y varianza S 2 1 = 2.5 .
- La segunda submuestra es 46,47,48,49,50 con media y varianza S 2 2 = 2.5 .
Ahora, si usa la "fórmula de la literatura" para calcular la varianza agrupada, obtendrá 2.5, lo cual es completamente incorrecto, porque la varianza principal / agrupada debería ser 564.7. En cambio, si usa "mi fórmula", obtendrá la respuesta correcta.
Por favor, comprenda, uso ejemplos extremos aquí para mostrarle a la gente que la fórmula realmente está mal. Si uso "datos normales" que no tienen muchas variaciones (casos extremos), entonces los resultados de esas dos fórmulas serán muy similares, y las personas podrían descartar la diferencia debido a un error de redondeo, no porque la fórmula en sí sea incorrecto.
Respuestas:
En pocas palabras, la varianza agrupada es una estimación (imparcial) de la varianza dentro de cada muestra, bajo el supuesto / restricción de que esas varianzas son iguales.
Esto se explica, motiva y analiza con cierto detalle en la entrada de Wikipedia para la varianza agrupada .
No , no estimar la varianza de una nueva "meta-muestra de" formada por la concatenación de las dos muestras individuales, como se supone. Como ya has descubierto, estimar eso requiere una fórmula completamente diferente.
fuente
La varianza agrupada se usa para combinar las varianzas de diferentes muestras tomando su promedio ponderado, para obtener la varianza "general". El problema con su ejemplo es que es un caso patológico, ya que cada una de las submuestras tiene una varianza igual a cero. Tal caso patológico tiene muy poco en común con los datos que usualmente encontramos, ya que siempre hay alguna variabilidad y si no hay variabilidad, no nos importan tales variables ya que no llevan información. Debe tener en cuenta que este es un método muy simple y que existen formas más complicadas de estimar la varianza en las estructuras de datos jerárquicas que no son propensas a tales problemas.
En cuanto a su ejemplo en la edición, muestra que es importante establecer claramente sus suposiciones antes de comenzar el análisis. Digamos que tiene puntos de datos en k grupos, lo denotaremos como x 1 , 1 , x 2 , 1 , ... , x n - 1 , k , x n , k , donde el índice i -ésimo en x i , j representa casos y jnorte k X1 , 1, x2 , 1, ... , xn - 1 , k, xn , k yo Xi , j j -th index stands for group indexes. There are several scenarios possible, you can assume that all the points come from the same distribution (for simplicity, let's assume normal distribution),
you can assume that each of the sub-samples has its own mean
or, its own variance
or, each of them have their own, distinct parameters
Depending on your assumptions, particular method may, or may not be adequate for analyzing the data.
In the first case, you wouldn't be interested in estimating the within-group variances, since you would assume that they all are the same. Nonetheless, if you aggregated the global variance from the group variances, you would get the same result as by using pooled variance since the definition of variance is
and in pooled estimator you first multiply it byn−1 , then add together, and finally divide by n1+n2−1 .
In the second case, means differ, but you have a common variance. This example is closest to your example in the edit. In this scenario, the pooled variance would correctly estimate the global variance, while if estimated variance on the whole dataset, you would obtain incorrect results, since you were not accounting for the fact that the groups have different means.
In the third case it doesn't make sense to estimate the "global" variance since you assume that each of the groups have its own variance. You may be still interested in obtaining the estimate for the whole population, but in such case both (a) calculating the individual variances per group, and (b) calculating the global variance from the whole dataset, can give you misleading results. If you are dealing with this kind of data, you should think of using more complicated model that accounts for the hierarchical nature of the data.
The fourth case is the most extreme and quite similar to the previous one. In this scenario, if you wanted to estimate the global mean and variance, you would need a different model and different set of assumptions. In such case, you would assume that your data is of hierarchical structure, and besides the within-group means and variances, there is a higher-level common variance, for example assuming the following model
where each sample has its own means and variancesμj,σ2j that are themselves draws from common distributions. In such case, you would use a hierarchical model that takes into consideration both the lower-level and upper-level variability. To read more about this kind of models, you can check the Bayesian Data Analysis book by Gelman et al. and their eight schools example. This is however much more complicated model then the simple pooled variance estimator.
fuente
The problem is if you just concatenate the samples and estimate its variance you're assuming they're from the same distribution therefore have the same mean. But we are in general interested in several samples with different mean. Does this make sense?
fuente
The use-case of pooled variance is when you have two samples from distributions that:
An example of this is a situation where you measure the length of Alice's nosen times for one sample, and measure the length of Bob's nose m times for the second. These are likely to produce a bunch of different measurements on the scale of millimeters, because of measurement error. But you expect the variance in measurement error to be the same no matter which nose you measure.
In this case, taking the pooled variance would give you a better estimate of the variance in measurement error than taking the variance of one sample alone.
fuente
A través de la varianza agrupada no estamos tratando de estimar la varianza de una muestra más grande, utilizando muestras más pequeñas. Por lo tanto, los dos ejemplos que dio no se refieren exactamente a la pregunta.
Se requiere una varianza agrupada para obtener una mejor estimación de la varianza de la población, a partir de dos muestras que se han tomado aleatoriamente de esa población y se obtienen estimaciones de varianza diferentes.
Ejemplo, usted está tratando de medir la variación en los hábitos de fumar de los hombres en Londres. Muestras dos veces, 300 hombres de Londres. Terminas obteniendo dos variaciones (¡probablemente un poco diferente!). Ahora, ya que hizo un muestreo aleatorio justo (¡lo mejor para su capacidad! Ya que el muestreo aleatorio verdadero es casi imposible), tiene todos los derechos para decir que ambas variaciones son estimaciones puntuales verdaderas de la varianza de la población (hombres de Londres en este caso).
Pero, ¿cómo es posible? es decir, dos estimaciones puntuales diferentes !! Por lo tanto, seguimos adelante y encontramos una estimación puntual común que es la varianza agrupada. No es más que el promedio ponderado de las estimaciones de dos puntos, donde los pesos son el grado de libertad asociado con cada muestra.
Espero que esto aclare.
fuente