La varianza de la media ponderada es mayor que la media no ponderada

8

Un revisor mío pregunta por una razón por la que he usado datos no ponderados, en lugar de datos ponderados. He discutido el problema con un estadístico y su respuesta fue similar a la de

Si tiene observaciones independientes y toma la media general, su varianza siempre es menor que la varianza de una media ponderada como el estimador. ... ¡Entonces los intervalos de confianza se ampliarán!

Desde entonces he encontrado la siguiente pregunta en este sitio web y, según tengo entendido, sugieren que la variación debería ser la misma. Entonces, ¿puede alguien, por favor, con una mente más dotada estadísticamente que la mía, por favor confirme la respuesta del estadístico y explique en términos simples la teoría, o con un ejemplo trabajado.

user08041991
fuente
Si los "pesos" son, de hecho, frecuencias de observación o de población, entonces deben usarse, ya que los números no ponderados no tienen sentido. Es probable que la cita de su estadístico sea cierta para una población con una distribución unimodal, aunque no es necesario que sea cierta en general.
Henry
Sería bastante fácil proporcionar un ejemplo trabajado con más contexto. ¿Qué representan los pesos? ¿Estás hablando de la varianza de la media muestral? ¿Son las muestras de una población finita? Con o sin reemplazo?
Henry
Digamos que hemos recopilado una serie de mediciones de frecuencia cardíaca de una muestra de personas en un hospital. Luego se puede aplicar un factor de ponderación a cada individuo para escalar las mediciones para que reflejen las estimaciones nacionales o la población, comparando una serie de factores de confusión (por ejemplo, edad, altura, peso, etc.).
user08041991
La pregunta a la que se vincula es sobre los pesos de frecuencia. ¿Eso es lo que tienes?
mdewey
2
La media de norte valores Xyo es la media ponderada X¯=yowyoXyo con pesas wyo=1/ /norte. Cuando elXyo son independientes, las reglas básicas de varianza implican
(1)Var(X¯)=yowyo2Var(Xyo).
Cuando además el Xyo todos tienen la misma varianza σ2, esto se simplifica a wyo2 veces σ2. Como los pesos son positivos y suman unidad,(1) se minimiza solo cuando wyo=1/ /norte. En este sentido, el estadístico es correcto. Esta conclusión general es independiente de cualquier otra propiedad de la distribución deXyo, como la unimodalidad.
whuber

Respuestas:

5

Su pregunta vinculada es abordar el uso de pesos como un atajo para lidiar con la varianza igualmente ponderada por punto de datos en la que algunos puntos de datos ocurren más de una vez.

@whuber ha abordado en un comentario la situación en la que las variaciones de todos los puntos de datos son iguales. Así que abordaré la situación en la que no son iguales. En esta situación, la media ponderada óptima produce una varianza menor que la media no ponderada, es decir, igualmente ponderada.

La media ponderada, usando pesas wyo, es igual Σyo=1nortewyoXyoy tiene varianza = Σyo=1nortewyo2Vunar(Xyo). Entonces deseamos minimizarΣyo=1nortewyo2Vunar(Xyo), sujeto a Σyo=1nortewyo=1 y wyo0 0 por todo lo i.

Las condiciones de Karush-Kuhn-Tucker, que son necesarias y suficientes para un mínimo global para este problema, dado que es un problema de programación cuadrática convexo, dan como resultado una solución de forma cerrada, a saber:

Lo óptimo wyo=[1/ /Vunar(Xyo)]/ /Σj=1norte[1/ /Vunar(Xj)] para 1 = 1 .. n.

La varianza de la media ponderada óptima correspondiente = 1/ /Σyo=1norte[1/ /Vunar(Xyo)].

Por el contrario, igual ponderación significa wyo=1nortepara todo i, donde n es el número de puntos de datos. Como señaló Whuber, los pesos iguales son óptimos si todas las variaciones de puntos de datos son iguales, lo que se puede ver en la fórmula anterior para un óptimowyo. Sin embargo, como es evidente por esa fórmula, los pesos iguales no son óptimos si las variaciones de los puntos de datos no son todas iguales, y de hecho resultan en una varianza mayor (de la media ponderada) que los pesos óptimos. La varianza de la media ponderada por igual, es decir, la varianza de la media ponderada usando pesos iguales =1norte2Σyo=1norteVunar(Xyo).

Aquí hay algunos ejemplos de resultados numéricos:

  1. Hay dos puntos de datos, que tienen variaciones respectivamente de 1 y 4. La media no ponderada tiene una varianza = 1.25. La media ponderada que usa los pesos óptimos de 0.8 y 0.2 respectivamente, tiene una varianza = 0.8, que por supuesto es menor que 1.25.
  2. Hay tres puntos de datos, que tienen varianzas respectivamente de 1, 4 y 9. La media no ponderada tiene varianza = 1.5556. La media ponderada utilizando los pesos óptimos de 0.7347, 0.1837, 0.0816 respectivamente, tiene una varianza = 0.7347, que por supuesto es menor que 1.5556.

Por supuesto, es posible que la media ponderada tenga una mayor varianza que la media no ponderada, si las ponderaciones se eligen de manera deficiente. Al elegir el peso de 1 en el punto de datos con la mayor varianza, y 0 para todos los demás puntos de datos, la media ponderada tendría varianza = la mayor varianza de cualquier punto de datos. Este ejemplo extremo sería el resultado de maximizar en lugar de minimizar en el problema de optimización que expuse.

Mark L. Stone
fuente
Estoy confundido acerca de su referencia a los puntos de datos individuales que tienen varianza (por ejemplo, hay dos puntos de datos, que tienen variaciones respectivamente de 1 y 4), ¿puede explicar?
edstatsuser
Decir punto de datos Xyo tiene una variación particular es abreviada para decir que Xyose extrae de una población (variable aleatoria) que tiene esa varianza. Por lo tanto, los diferentes puntos de datos se pueden extraer de diferentes poblaciones, porque no se supone que esto sea en un muestreo.
Mark L. Stone
0

Aquí hay un ejemplo simple usando el 1norteyo(Xyo-1nortejXj)2 y 1kwkyowyo(Xyo-1kwkjwjXj)2 formas de la varianza:

Supongamos que su población tiene medidas 20,30,40,50.

  • Sin ponderar la media es 35 y la varianza es 125
  • Con pesas respectivas 1000,4000,3000,2000 la media ponderada es 36 y la varianza ponderada es 84
  • Con pesas respectivas 3000,2000,1000,4000 la media ponderada es 36 y la varianza ponderada es 164

Este ejemplo es consistente con mi comentario de que es probable que la cita de su estadístico sea cierta para una población con una distribución unimodal, aunque no es necesario que sea cierta en general.

Supongo que el punto es que si cita la media ponderada, probablemente debería asociarla con la varianza ponderada. Si de hecho su media es el resultado de la muestra, el error estándar de la media muestral ponderada es un cálculo más complicado.

Enrique
fuente
Esta respuesta parece confundir la varianza de una muestra (o población finita) con la varianza de la distribución muestral de la media (o media ponderada). En consecuencia, incluye declaraciones que parecen no ser ciertas y pueden ser engañosas.
whuber