¿Qué significa "en realidad" la varianza agrupada?

15

Soy un novato en estadísticas, así que ¿podrían ayudarme aquí?

Mi pregunta es la siguiente: ¿Qué significa realmente la varianza agrupada ?

Cuando busco una fórmula para la varianza agrupada en Internet, encuentro mucha literatura usando la siguiente fórmula (por ejemplo, aquí: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ):

Sp2=S12(n11)+S22(n21)n1+n22

Pero, ¿qué calcula realmente ? Porque cuando uso esta fórmula para calcular mi varianza agrupada, me da una respuesta incorrecta.

Por ejemplo, considere estas "muestras principales":

2,2,2,2,2,8,8,8,8,8

La varianza de esta muestra original es Sp2=10 , y su media es x¯p=5 .

Ahora, supongamos que divido esta muestra principal en dos submuestras:

  1. La primera submuestra es 2,2,2,2,2 con media x¯1=2 y varianza S12=0 .
  2. La segunda submuestra es 8,8,8,8,8 con media x¯2=8 y varianza S22=0 .

Ahora, claramente, usar la fórmula anterior para calcular la varianza agrupada / principal de estas dos submuestras producirá cero, porque S1=0 y S2=0 . Entonces, ¿qué calcula realmente esta fórmula ?

Por otro lado, después de una larga derivación, encontré que la fórmula que produce la varianza agrupada / principal correcta es:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

En la fórmula anterior, y d 2 = ¯ x 2 - ˉ x p .d1=x1¯x¯pd2=x2¯x¯p

Encontré una fórmula similar a la mía, por ejemplo aquí: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html y también en Wikipedia. Aunque tengo que admitir que no se parecen exactamente a los míos.

Entonces, de nuevo, ¿qué significa realmente la varianza agrupada? ¿No debería significar la varianza de la muestra principal de las dos submuestras? ¿O estoy completamente equivocado aquí?

Gracias de antemano.


EDITAR 1: Alguien dice que mis dos submuestras anteriores son patológicas ya que tienen variación cero. Bueno, podría darte un ejemplo diferente. Considere esta muestra principal:

1,2,3,4,5,46,47,48,49,50

La varianza de esta muestra original es , y su media es ˉ x p = 25.5 .Sp2=564.7x¯p=25.5

Ahora, supongamos que divido esta muestra principal en dos submuestras:

  1. La primera submuestra es 1,2,3,4,5 con media , y varianza S 2 1 = 2.5 .x¯1=3S12=2.5
  2. La segunda submuestra es 46,47,48,49,50 con media y varianza S 2 2 = 2.5 .x¯2=48S22=2.5

Ahora, si usa la "fórmula de la literatura" para calcular la varianza agrupada, obtendrá 2.5, lo cual es completamente incorrecto, porque la varianza principal / agrupada debería ser 564.7. En cambio, si usa "mi fórmula", obtendrá la respuesta correcta.

Por favor, comprenda, uso ejemplos extremos aquí para mostrarle a la gente que la fórmula realmente está mal. Si uso "datos normales" que no tienen muchas variaciones (casos extremos), entonces los resultados de esas dos fórmulas serán muy similares, y las personas podrían descartar la diferencia debido a un error de redondeo, no porque la fórmula en sí sea incorrecto.

Hanciong
fuente

Respuestas:

13

En pocas palabras, la varianza agrupada es una estimación (imparcial) de la varianza dentro de cada muestra, bajo el supuesto / restricción de que esas varianzas son iguales.

Esto se explica, motiva y analiza con cierto detalle en la entrada de Wikipedia para la varianza agrupada .

No , no estimar la varianza de una nueva "meta-muestra de" formada por la concatenación de las dos muestras individuales, como se supone. Como ya has descubierto, estimar eso requiere una fórmula completamente diferente.

Jake Westfall
fuente
El supuesto de "igualdad" (es decir, la misma población se dio cuenta de esas muestras) no es necesario en general para definir qué es: "agrupado". Agrupado simplemente significa promedio, ómnibus (vea mi comentario a Tim).
ttnphns
@ttnphns Creo que el supuesto de igualdad es necesario para dar a la varianza agrupada un significado conceptual (que solicitó el OP) que va más allá de solo describir verbalmente la operación matemática que realiza en las variaciones de muestra. Si no se asume que las variaciones de la población son iguales, entonces no está claro de qué podríamos considerar que la variación agrupada es una estimación. Por supuesto, podríamos pensar que es una amalgama de las dos variaciones y dejarlo así, pero eso no es esclarecedor en ausencia de cualquier motivación para querer combinar las variaciones en primer lugar.
Jake Westfall
Jake, no estoy en desacuerdo con eso, dada la pregunta específica del OP, pero quería hablar sobre la definición de la palabra "agrupado", por eso dije "en general".
ttnphns
@JakeWestfall Su respuesta es la mejor respuesta hasta ahora. Gracias. Aunque todavía no tengo claro una cosa. Según Wikipedia, la varianza agrupada es un método para estimar la varianza de varias poblaciones diferentes cuando la media de cada población puede ser diferente , pero se puede suponer que la varianza de cada población es la misma .
Hanciong
@JakeWestfall: Entonces, si estamos calculando la varianza agrupada de dos poblaciones diferentes con diferentes medios, ¿qué calcula realmente? Debido a que la primera variación mide la variación con respecto a la primera media, y la segunda variación es con respecto a la segunda media. No sé qué información adicional se puede obtener al calcularla.
Hanciong
10

La varianza agrupada se usa para combinar las varianzas de diferentes muestras tomando su promedio ponderado, para obtener la varianza "general". El problema con su ejemplo es que es un caso patológico, ya que cada una de las submuestras tiene una varianza igual a cero. Tal caso patológico tiene muy poco en común con los datos que usualmente encontramos, ya que siempre hay alguna variabilidad y si no hay variabilidad, no nos importan tales variables ya que no llevan información. Debe tener en cuenta que este es un método muy simple y que existen formas más complicadas de estimar la varianza en las estructuras de datos jerárquicas que no son propensas a tales problemas.

En cuanto a su ejemplo en la edición, muestra que es importante establecer claramente sus suposiciones antes de comenzar el análisis. Digamos que tiene puntos de datos en k grupos, lo denotaremos como x 1 , 1 , x 2 , 1 , ... , x n - 1 , k , x n , k , donde el índice i -ésimo en x i , j representa casos y jnortekX1,1,X2,1,...,Xnorte-1,k,Xnorte,kyoXyo,jj-th index stands for group indexes. There are several scenarios possible, you can assume that all the points come from the same distribution (for simplicity, let's assume normal distribution),

(1)Xyo,jnorte(μ,σ2)

you can assume that each of the sub-samples has its own mean

(2)Xyo,jnorte(μj,σ2)

or, its own variance

(3)xi,jN(μ,σj2)

or, each of them have their own, distinct parameters

(4)xi,jN(μj,σj2)

Depending on your assumptions, particular method may, or may not be adequate for analyzing the data.

In the first case, you wouldn't be interested in estimating the within-group variances, since you would assume that they all are the same. Nonetheless, if you aggregated the global variance from the group variances, you would get the same result as by using pooled variance since the definition of variance is

Var(X)=1n1i(xiμ)2

and in pooled estimator you first multiply it by n1, then add together, and finally divide by n1+n21.

In the second case, means differ, but you have a common variance. This example is closest to your example in the edit. In this scenario, the pooled variance would correctly estimate the global variance, while if estimated variance on the whole dataset, you would obtain incorrect results, since you were not accounting for the fact that the groups have different means.

In the third case it doesn't make sense to estimate the "global" variance since you assume that each of the groups have its own variance. You may be still interested in obtaining the estimate for the whole population, but in such case both (a) calculating the individual variances per group, and (b) calculating the global variance from the whole dataset, can give you misleading results. If you are dealing with this kind of data, you should think of using more complicated model that accounts for the hierarchical nature of the data.

The fourth case is the most extreme and quite similar to the previous one. In this scenario, if you wanted to estimate the global mean and variance, you would need a different model and different set of assumptions. In such case, you would assume that your data is of hierarchical structure, and besides the within-group means and variances, there is a higher-level common variance, for example assuming the following model

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

where each sample has its own means and variances μj,σj2 that are themselves draws from common distributions. In such case, you would use a hierarchical model that takes into consideration both the lower-level and upper-level variability. To read more about this kind of models, you can check the Bayesian Data Analysis book by Gelman et al. and their eight schools example. This is however much more complicated model then the simple pooled variance estimator.

Tim
fuente
I have updated my question with different example. In this case, the answer from "literature's formula" is still wrong. I understand that we are usually dealing with "normal data" where there is no extreme case like my example above. However, as mathematicians, shouldn't you care about which formula is indeed correct, instead of which formula applies in "everyday/common problem"? If some formula is fundamentally wrong, it should be discarded, especially if there is another formula which holds in all cases, pathological or not.
Hanciong
Btw you said there are more complicated ways of estimating variance. Could you show me these ways? Thank you
Hanciong
2
Tim, pooled variance is not the total variance of the "combined sample". In statistics, "pooled" means weighted averaged (when we speak of averaged quantities such as variances, weights being the n's) or just summed (when we speak of sums such as scatters, sums-of-squares). Please, reconsider your terminology (choice of words) in the answer.
ttnphns
1
Albeit off the current topic, here is an interesting question about "common" variance concept. stats.stackexchange.com/q/208175/3277
ttnphns
1
Hanciong. I insist that "pooled" in general and even specifically "pooled variance" concept does not need, in general, any assumption such as: groups came from populations with equal variances. Pooling is simply blending (weighted averaging or summing). It is in ANOVA and similar circumstances that we do add that statistical assumption.
ttnphns
1

The problem is if you just concatenate the samples and estimate its variance you're assuming they're from the same distribution therefore have the same mean. But we are in general interested in several samples with different mean. Does this make sense?

ZHU
fuente
0

The use-case of pooled variance is when you have two samples from distributions that:

  • may have different means, but
  • which you expect to have an equal true variance.

An example of this is a situation where you measure the length of Alice's nose n times for one sample, and measure the length of Bob's nose m times for the second. These are likely to produce a bunch of different measurements on the scale of millimeters, because of measurement error. But you expect the variance in measurement error to be the same no matter which nose you measure.

In this case, taking the pooled variance would give you a better estimate of the variance in measurement error than taking the variance of one sample alone.

Misha
fuente
Gracias por su respuesta, pero todavía no entiendo nada. Los primeros datos le dan la varianza con respecto a la longitud de la nariz de Alice, y los segundos datos le dan la varianza con respecto a la longitud de la nariz de Bob. Si está calculando una varianza agrupada a partir de esos datos, ¿qué significa en realidad? Debido a que la primera variación mide la variación con respecto a la de Alice y la segunda con respecto a la de Bob, entonces, ¿qué información adicional podemos obtener calculando su variación combinada? Son números completamente diferentes.
Hanciong
0

A través de la varianza agrupada no estamos tratando de estimar la varianza de una muestra más grande, utilizando muestras más pequeñas. Por lo tanto, los dos ejemplos que dio no se refieren exactamente a la pregunta.

Se requiere una varianza agrupada para obtener una mejor estimación de la varianza de la población, a partir de dos muestras que se han tomado aleatoriamente de esa población y se obtienen estimaciones de varianza diferentes.

Ejemplo, usted está tratando de medir la variación en los hábitos de fumar de los hombres en Londres. Muestras dos veces, 300 hombres de Londres. Terminas obteniendo dos variaciones (¡probablemente un poco diferente!). Ahora, ya que hizo un muestreo aleatorio justo (¡lo mejor para su capacidad! Ya que el muestreo aleatorio verdadero es casi imposible), tiene todos los derechos para decir que ambas variaciones son estimaciones puntuales verdaderas de la varianza de la población (hombres de Londres en este caso).

Pero, ¿cómo es posible? es decir, dos estimaciones puntuales diferentes !! Por lo tanto, seguimos adelante y encontramos una estimación puntual común que es la varianza agrupada. No es más que el promedio ponderado de las estimaciones de dos puntos, donde los pesos son el grado de libertad asociado con cada muestra.

Espero que esto aclare.

Sameer Saurabh
fuente